Rok temu uruchomienie modelu językowego z bilionem parametrów oznaczało serwerownię. Szafy rack, chłodzenie, rachunek za prąd, który wymagał własnego spotkania. Potem AMD opublikowało materiał dla deweloperów pokazujący cztery mini PC stojące na biurku (z rodzaju tych, które można nieść po dwa naraz) wykonujące to samo zadanie. Cztery identyczne małe pudełka, połączone kablami, uruchamiające model z większą liczbą parametrów niż jest gwiazd, które widać z miejskiej ulicy.
Nagłówek pisze się sam: "Bez chmury. Bez centrum danych." I to prawda. AMD naprawdę uruchomiło model z 1,04 biliona parametrów na czterech systemach Framework Desktop z konsumenckim krzemem w środku.
Ale jest część, którą nagłówek pominął, i to ona decyduje, czy to kamień milowy, czy magiczna sztuczka. Jest pewien szczegół architektury, który sprawia, że "bilion parametrów" jest technicznie uczciwe, jest haczyk, który przesądza, czy faktycznie można by tego użyć, oraz powód, dla którego ma to większe znaczenie, niż przyznaje mu zarówno szum, jak i krytyka.
Krótka wersja
- Model to Kimi K2.5, a jest to konstrukcja typu Mixture-of-Experts: 1,04 biliona parametrów łącznie, ale tylko około 32 miliardy z nich uruchamia się przy danym tokenie. "Model z bilionem parametrów" to określenie trafne; obliczenia na token są bliższe obciążeniu klasy 32B.
- Klaster generuje około 8 do 9,5 tokena na sekundę, a czas do pierwszego tokena waha się od 39,7 do 239,1 sekundy w zależności od tego, jak długi jest twój prompt. W porządku przy pracy wsadowej. Bezlitosne przy interaktywnej pętli kodowania.
- To, co się zmieniło, to nie szybkość. To fakt, że pamięć zunifikowana umieściła wnioskowanie na skalę frontu na sprzęcie, który można kupić i postawić na półce, w kategorii, która kiedyś zaczynała się od "posiadaj centrum danych".
Co AMD Naprawdę Zrobiło
Konfiguracja jest niemal antyklimaktyczna, gdy zobaczysz ją rozpisaną. Cztery maszyny Framework Desktop maszyny, każda z Ryzen AI Max+ 395 i 128 GB zunifikowanej pamięci LPDDR5X. W BIOS-ie każdy węzeł może udostępnić do 96 GB jako dedykowaną VRAM, czyli 384 GB na czterech węzłach; przewodnik AMD dla Linuksa wykorzystuje następnie ustawienia TTM/jądra, aby podnieść to do 120 GB na węzeł, czyli 480 GB łącznie. Ma to znaczenie, ponieważ wykorzystana przez AMD kompilacja Kimi K2.5 UD_Q2_K_XL GGUF jest podana jako 375 GB, a nie 240 GB.
Spoiwem jest llama.cpp działające w trybie RPC: jeden węzeł kontrolera i trzy serwery RPC, z modelem rozłożonym na wszystkie cztery maszyny. AMD podaje połączenie jako 5 Gbps Ethernet, co pasuje do wbudowanego portu 5Gbit Ethernet w Framework Desktop. To cały zestaw. Żadnego egzotycznego połączenia, żadnych niestandardowych płyt, niczego, czego nie mógłbyś zamówić jeszcze dziś po południu.
Interesującym słowem w tym wszystkim jest zunifikowana. W zwykłym PC pamięć RAM twojego CPU i VRAM twojego GPU to oddzielne pule, a model zbyt duży dla VRAM albo przelewa się do wolnej pamięci systemowej, albo nie działa. Pamięć zunifikowana burzy tę ścianę: GPU może zaadresować cały bank, co jest jedynym powodem, dla którego desktop o pojemności 4,5 litra może w ogóle pomieścić fragment modelu tej wielkości.
Własny materiał techniczny AMD szczegółowo omawia konfigurację. Czego tak naprawdę nie omawia, to dlaczego "bilion parametrów" wykonuje więcej pracy retorycznej, niż się wydaje.
Sztuczka: Dlaczego "Bilion Parametrów" Jest Prawdą, Ale Nie Całą Prawdą
Oto rzecz, na której opiera się specyfikacja, nie wyjaśniając jej: Kimi K2.5 to model Mixture-of-Experts, a to zmienia, co "bilion parametrów" oznacza w praktyce.
Model gęsty, taki, jaki większość ludzi sobie wyobraża, uruchamia każdy parametr dla każdego tokena. Gęsty model z 70 miliardami parametrów wykonuje obliczenia o wartości 70 miliardów parametrów na każde słowo, które produkuje. Model Mixture-of-Experts jest zbudowany inaczej. Kimi K2.5 ma 384 oddzielnych "ekspertów", z których 8 aktywuje się na token plus jeden ekspert współdzielony, w 61 warstwach. Tak więc, choć model niesie łącznie 1,04 biliona parametrów, tylko około 32 miliardy z nich rozświetla się przy pojedynczym przejściu w przód. Router wybiera, którego eksperta obudzić; reszta siedzi bezczynnie dla tego tokena.
Czy zatem "uruchomienie modelu z bilionem parametrów na czterech mini PC" jest uczciwe? Tak, naprawdę potrzebujesz pamięci, aby pomieścić wszystkie 1,04 biliona parametrów, i to ta pamięć jest trudną częścią. Ale obliczenia, które twój sprzęt musi wykonać na token, to zadanie klasy 32B, a nie klasy 1T.
Co tnie w obie strony, i tu robi się ciekawie. Czyni to demo bardziej imponującym, niż brzmi, ponieważ utrzymanie pełnego modelu z bilionem parametrów w pamięci na konsumenckich pudełkach to ta naprawdę trudna rzecz, którą osiągnęli. I czyni je mniej imponującym, niż sugeruje nagłówek, ponieważ faktyczne obciążenie na token to coś, co pojedyncze pudełka już przeżuwają szybciej na mniejszych modelach MoE. Model MoE o wielkości 120B działa z prędkością ponad 50 tokenów na sekundę na jednym z tych węzłów. Liczba biliona parametrów jest prawdziwa, ale to popis pamięci, a nie popis obliczeniowy.
Wniosek: gdy dobierasz sprzęt do modelu, to liczba aktywnych parametrów jest tym, co twoja maszyna musi zasilać na token, a nie suma na pudełku.
Haczyk: Co Naprawdę Oznacza 8 Tokenów na Sekundę i Oczekiwanie od 40 Sekund do 4 Minut
Osiem tokenów na sekundę to liczba, która decyduje o wszystkim, więc zatrzymaj się przy niej na chwilę. Artykuł AMD podaje, że klaster generuje około 8,30 t/s przy kontekście 8 192 tokenów i mniej więcej 9,45 t/s w stanie ustalonym, z przetwarzaniem promptu na poziomie około 100,77 t/s. To w porządku, uczciwe liczby jak na to, czym są.
Ta, która boli, to czas do pierwszego tokena. Zanim model wyprodukuje pojedyncze słowo, musi przeczytać twój prompt, a własna tabela benchmarków AMD określa to oczekiwanie na 39,7 sekundy dla promptu 4 096 tokenów, 90,5 sekundy dla promptu 8 192 tokenów i 239,1 sekundy dla promptu 16 384 tokenów z włączonym Flash Attention. Więc wpisujesz pytanie, a potem czekasz. Możliwe, że prawie cztery minuty, zanim cokolwiek wróci.
Dla interaktywnej pętli kodowania to ciężkie, a deweloperzy w dyskusji na Hacker News powiedzieli to wprost: ponad minuta martwej ciszy przed pierwszym tokenem nie pasuje do sposobu, w jaki ktokolwiek pisze kod z asystentem. Ale odwróć obciążenie. Jeśli uruchamiasz zadania wsadowe nocą, przetwarzasz dokumenty asynchronicznie, generujesz rzeczy, które przeczytasz później, albo wykonujesz prywatne wnioskowanie, którego cały sens polega na tym, że nic nie opuszcza budynku, 8 tokenów na sekundę jest całkowicie znośne. I tak nie patrzyłeś na ekran.
Gwiazdka: Nie oczekuj, że te liczby odtworzą się od razu po wyjęciu z pudełka. Stos oprogramowania ROCm na tym sprzęcie jest wrażliwy na wersje w sposób, który gryzie: zgłoszenie na GitHubie udokumentowało system Strix Halo zablokowany na bezczynnych taktach GPU i pełzający z prędkością 0,5 t/s podczas wnioskowania LLM na ROCm 7.1.1 i jądrze Linux 6.14. To nie jest "AMD jest zepsute", ale oznacza, że opublikowana wydajność zależy od bardzo konkretnego stosu oprogramowania, i możesz skończyć goniąc za kombinacjami ROCm, jądra i firmware, zanim twój zestaw dorówna liczbom z materiału.
Jeszcze jedna rzecz, którą krytyka rozumie błędnie, czyli koszt. Ludzie wciąż nazywają to "klastrem za 10 000 dolarów", ale nikt nie publikuje tego jako stałego zestawienia materiałów. Zrób rachunki sam: cztery Framework Desktopy 128 GB w cenie premierowej 1 999 dolarów dałyby same maszyny za około 8 000 dolarów, podczas gdy migawka z Liliputing z marca 2026 wymieniła konfigurację Framework Desktop 128GB/1TB za 2 851 dolarów, czyli około 11 400 dolarów za cztery przed siecią. Dodaj kilkaset dolarów na przełącznik i okablowanie, a praktyczny zakres jest bliższy mniej więcej 8,2 tys. do 11,7 tys. dolarów w zależności od konfiguracji, daty zakupu i tego, co już masz. To nie nic. Ale też nie serwerownia.
Oto, gdzie ląduję w całej tej sprawie: klaster działa. Czy osiem tokenów na sekundę i ponadminutowe oczekiwanie to triumf, czy zabawka, zależy całkowicie od tego, co próbujesz zbudować. To nie jest interaktywna stacja robocza do kodowania. To też nie jest zabawka. To prawdziwa maszyna do konkretnego rodzaju cierpliwej pracy, a udawanie, że jest czymś więcej lub mniej niż tym, jest tym, jak wszyscy w tym sporze kończą, mówiąc obok siebie.
Gdzie To Naprawdę Ląduje
Uczciwe ujęcie to nie "AMD pokonało Nvidię". To raczej, że jest to inny produkt dla innej osoby. Czytelnik, który tego chce, to ten, kto potrzebuje prywatności, chce trybu offline lub nie chce płacić za token w nieskończoność, a nie ten, kto goni za najszybszą możliwą odpowiedzią.
A najmocniejszy argument przeciwko całemu przedsięwzięciu zasługuje na prostą odpowiedź: możesz po prostu skorzystać z API Kimi. Artificial Analysis wymienia obecnie własny endpoint K2.5 Kimi na poziomie około 56 do 60 tokenów na sekundę z mieszaną ceną około 0,49 dolara za milion tokenów, podczas gdy oficjalna platforma API Kimi podaje ceny K2.5 na poziomie 0,10 dolara/M za tokeny wejściowe z trafieniem w cache, 0,60 dolara/M za tokeny wejściowe i 3,00 dolara/M za tokeny wyjściowe. Zewnętrzni dostawcy K2.5 mogą być szybsi lub tańsi w zależności od routingu, ale podstawowa myśl jest ta sama: API jest szybsze niż klaster, unika niańczenia sprzętu i będzie właściwym wyborem dla większości ludzi w większości dni.
Tak więc lokalna historia ma sens tylko wtedy, gdy prawdziwa jest jedna z trzech rzeczy: dane nie mogą wyjść (prywatność), połączenia nie można zakładać (offline) lub wolumen tokenów jest na tyle duży i na tyle trwały, że posiadanie sprzętu bije wynajmowanie go w nieskończoność (koszt przy skali). Poza tymi trzema wygrywa API. Wewnątrz nich klaster jest jedyną rzeczą, która w ogóle wykonuje zadanie.
| Wymiar | Klaster 4-węzłowy AMD | API Kimi / ścieżka chmurowa |
|---|---|---|
| Prędkość generowania | ~8 do 9,5 t/s | ~56 do 60 t/s na własnym endpoincie K2.5 Kimi |
| Czas do pierwszego tokena | 39,7 do 239,1 s | zależny od dostawcy, znacznie niższy |
| Model kosztowy | ~8,2 tys. do 11,7 tys. dolarów sprzętu | ceny API za token |
| Prywatność / offline | w pełni lokalne | hostowane przez dostawcę |
| Najlepsze zastosowanie | praca prywatna, offline, wsadowa | użycie interaktywne/API |
Dla porządku, Nvidia DGX Spark to oczywiste "a co z" w tym miejscu i wygrywa na pewnych osiach, na których klaster AMD nie. To cała osobna walka, którą podejmę gdzie indziej. Jeśli chcesz strony wynajmu w decyzji sprzęt kontra chmura, strona GPU VPS od Cloudzy jest bardziej praktycznym punktem porównania.
Część, Która Naprawdę Ma Znaczenie
Odsuń tempo tokenów i argumenty o cenie, a zostaje jeden fakt: sprzęt, który uruchamia model z bilionem parametrów, to teraz półka, a nie budynek.
To jest ta zmiana i łatwo ją przeoczyć w sporze o szybkość. Rok temu kategorią ludzi, którzy mogli uruchomić model z 1,04 biliona parametrów, byli "operatorzy centrów danych". Kropka. Teraz obejmuje ona każdego, kto ma mniej więcej dziesięć tysięcy dolarów i trochę cierpliwości. Granica nie przesunęła się odrobinę: cała nowa grupa ludzi właśnie przeszła przez drzwi, które były zamknięte.
To, co to otwiera, jest interesującą częścią. Prywatne agenty działające w całości na sprzęcie, który posiadasz. Wnioskowanie, które działa w samolocie lub za luką powietrzną. Modele, które fizycznie nie mogą zadzwonić do domu, bo nie ma dokąd. Ekonomia AI, w której krańcowy koszt tokena to prąd zamiast taryfowanej linii API. Nic z tego nie było osiągalne na sprzęcie konsumenckim rok temu, a to pamięć zunifikowana jest tym, co to osiągnęło.
Obserwowałem ten wzorzec wystarczająco wiele razy, by być ostrożnym wobec "to zmienia wszystko". Zazwyczaj nie zmienia; zazwyczaj to zeszłoroczna rzecz z nowym logo. Ta jest inna, i to nie dlatego, że jest szybka. Jest inna, bo przesunął się próg. Wolna, droga, cierpliwa wersja lokalnego wnioskowania na skalę frontu istnieje teraz, a szybka wersja to tylko kwestia tego, jak kolejne kilka generacji sprzętu ją zetrze. Trudną częścią nigdy nie miała być szybkość. Trudną częścią był dostęp, a dostęp właśnie się wydarzył.
Kamieniem milowym nie jest tu szybkość. To kwestia tego, kto ma wstęp do pokoju. Maszyna uruchamiająca modele na skalę frontu była kiedyś budynkiem. Teraz to cztery pudełka na półce.
Często zadawane pytania
Czy Naprawdę Można Uruchomić Model z Bilionem Parametrów na Klastrze Mini PC?
Tak, z jednym ważnym zastrzeżeniem. AMD uruchomiło Kimi K2.5, model z 1,04 biliona parametrów, na czterech mini PC Ryzen AI Max+ 395. W BIOS-ie cztery systemy mogą udostępnić łącznie około 384 GB dedykowanej VRAM; przewodnik AMD dla Linuksa podnosi następnie alokację do 480 GB łącznie poprzez ustawienia TTM/jądra. Ale Kimi K2.5 to model Mixture-of-Experts: z tych 1,04 biliona parametrów tylko około 32 miliardy aktywuje się przy danym tokenie. Potrzebujesz pamięci, aby pomieścić je wszystkie, ale obliczenia na token są bliższe obciążeniu 32 miliardów parametrów.
Czym Jest Kimi K2.5 i Dlaczego Architektura MoE Ma Tu Znaczenie?
Kimi K2.5 to model językowy o otwartych wagach od Moonshot AI z 1,04 biliona parametrów łącznie i 32 miliardami aktywnymi przy każdym przejściu w przód, zbudowany na konstrukcji Mixture-of-Experts (384 ekspertów, 8 aktywowanych na token plus jeden współdzielony). Architektura ma znaczenie, ponieważ to liczba aktywnych parametrów, a nie suma, jest tym, co twój sprzęt musi obliczyć dla każdego tokena. Dlatego model z bilionem parametrów na papierze może w ogóle działać na konsumenckich pudełkach.
Czy 8 Tokenów na Sekundę Wystarczy do Lokalnego AI?
Zależy to całkowicie od obciążenia. Do przetwarzania wsadowego, zadań asynchronicznych, użycia offline lub prywatnego wnioskowania, gdzie nic nie może opuścić twojego sprzętu, 8 tokenów na sekundę jest w porządku, nie wpatrujesz się w ekran. Do interaktywnego kodowania jest to ciężkie, głównie dlatego, że czas do pierwszego tokena na tym klastrze wynosi od około 40 sekund do prawie 4 minut w zależności od długości promptu, a ta martwa cisza przed pierwszym słowem zabija iteracyjną pętlę.
Dlaczego Nie Skorzystać Po Prostu z API Kimi?
Dla większości ludzi powinieneś. Własny endpoint K2.5 Kimi jest znacznie szybszy niż lokalny klaster w aktualnych danych Artificial Analysis, a zewnętrzni dostawcy K2.5 mogą być jeszcze szybsi lub tańsi. Lokalny sprzęt ma sens tylko wtedy, gdy potrzebujesz prywatności (dane nie mogą wyjść), zdolności offline (brak połączenia do założenia) lub kosztu przy skali (trwale wysoki wolumen, gdzie posiadanie bije wynajem). Poza tymi przypadkami API jest lepszym wyborem.