Az AMD Billió Paraméteres Mini PC Klasztere: Amit a Specifikációs Adatlap Átugrik

Egy évvel ezelőtt egy billió paraméteres nyelvi modell futtatása szervertermet jelentett. Rackek, hűtés, és egy villanyszámla, amelynek külön értekezlet kellett. Aztán az AMD közzétett egy fejlesztői beszámolót, amely négy mini PC-t mutatott egy asztalon (olyat, amelyből kettőt is elbírsz egyszerre), ahogy ugyanazt a feladatot végzik. Négy egyforma kis doboz, kábellel összekötve, egy olyan modellt futtatva, amelynek több a paramétere, mint ahány csillagot egy városi utcáról láthatsz.

A főcím magától adódik: „Nincs felhő. Nincs adatközpont.” És ez igaz. Az AMD valóban futtatott egy 1,04 billió paraméteres modellt négy Framework Desktop rendszeren fogyasztói szilíciummal a belsejükben.

De van egy rész, amelyet a főcím átugrott, és éppen ez dönti el, hogy ez mérföldkő-e vagy bűvésztrükk. Van egy architekturális részlet, amely a „billió paramétert” technikailag őszintévé teszi, egy bökkenő, amely eldönti, hogy valóban használni tudnád-e ezt a dolgot, és egy ok, amiért fontosabb, mint amennyi elismerést akár a hype, akár az ellenérzés ad neki.

A rövid verzió

A modell a Kimi K2.5, és ez egy Mixture-of-Experts felépítés: 1,04 billió összes paraméter, de ezek közül csak nagyjából 32 milliárd lép működésbe egy adott tokennél. A „billió paraméteres modell” pontos megfogalmazás; a tokenenkénti számítás inkább egy 32B-osztályú munkaterheléshez áll közelebb.
A klaszter másodpercenként körülbelül 8 és 9,5 token között generál, az első tokenig eltelt idő pedig 39,7-től 239,1 másodpercig terjedhet attól függően, milyen hosszú a prompted. Kötegelt munkához rendben van. Brutális egy interaktív kódolási hurokhoz.
Ami megváltozott, az nem a sebesség. Hanem az, hogy az egyesített memória határszintű következtetést hozott olyan hardverre, amelyet megvehetsz és letehetsz egy polcra, egy olyan kategóriába, amely korábban ott kezdődött, hogy „birtokolj egy adatközpontot”.

Mit Csinált Valójában az AMD

A felállás szinte antiklimaktikus, amint kiterítve látod. Négy Framework Desktop gép, mindegyik egy Ryzen AI Max+ 395-tel és 128 GB LPDDR5X egyesített memóriával. A BIOS-ban minden csomópont legfeljebb 96 GB-ot képes dedikált VRAM-ként megjeleníteni, vagyis 384 GB-ot a négy csomóponton; az AMD Linux-os útmutatója ezután TTM/kernel beállításokkal csomópontonként 120 GB-ra, azaz összesen 480 GB-ra emeli ezt. Ez azért számít, mert az AMD által használt Kimi K2.5 UD_Q2_K_XL GGUF build 375 GB-osként van feltüntetve, nem 240 GB-osként.

A ragasztó a llama.cpp, amely RPC módbanfut: egy vezérlő csomópont és három RPC szerver, a modell pedig mind a négy gép között elosztva. Az AMD az összeköttetést 5 Gbps Ethernetként sorolja fel, ami illik a Framework Desktop beépített 5Gbit Ethernet portjához. Ez az egész szerelvény. Semmi egzotikus összeköttetés, semmi egyedi panel, semmi, amit ne tudnál még ma délután megrendelni.

Az érdekes szó mindebben az egyesített. Egy normál PC-n a CPU RAM-ja és a GPU VRAM-ja külön tárolóterületek, és egy a VRAM-hoz túl nagy modell vagy a lassú rendszermemóriába folyik át, vagy egyáltalán nem fut. Az egyesített memória ledönti ezt a falat: a GPU az egész tárolóbankot el tudja érni, és pontosan ez az oka annak, hogy egy 4,5 literes asztali gép egyáltalán be tud fogadni egy ekkora modell egy darabját.

Az AMD saját technikai beszámolója részletesen bemutatja a konfigurációt. Amit nem igazán tárgyal, az az, hogy a „billió paraméter” miért végez több retorikai munkát, mint amennyinek látszik.

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

A Trükk: Miért Igaz a „Billió Paraméter”, de Miért Nem a Teljes Igazság

Íme, amire a specifikációs adatlap támaszkodik anélkül, hogy elmagyarázná: a Kimi K2.5 egy Mixture-of-Experts modell, és ez megváltoztatja, mit jelent a gyakorlatban a „billió paraméter”.

Egy sűrű (dense) modell, amilyet a legtöbben elképzelnek, minden tokenhez minden paramétert futtat. Egy 70 milliárd paraméteres sűrű modell 70 milliárd paraméternyi matekot végez minden egyes szóval, amelyet előállít. Egy Mixture-of-Experts modell máshogy épül fel. A Kimi K2.5 384 különálló „szakértővel” rendelkezik, amelyek közül tokenenként 8 aktiválódik plusz egy megosztott szakértő, mindezt 61 rétegenkeresztül. Tehát miközben a modell összesen 1,04 billió paramétert hordoz, ezek közül csak nagyjából 32 milliárd világít fel bármely egyes előrehaladásnál. Egy router választja ki, melyik szakértőket ébressze fel; a többi ott ül, és semmit sem csinál arra a tokenre.

Tehát őszinte-e a „billió paraméteres modell futtatása négy mini PC-n”? Igen, valóban szükséged van a memóriára, hogy mind az 1,04 billió paramétert tárold, és ez a memória a nehéz rész. De a számítás, amelyet a hardverednek tokenenként el kell végeznie, egy 32B-osztályú feladat, nem 1T-osztályú.

Ami mindkét irányba vág, és itt válik érdekessé. Ettől lesz a demó lenyűgözőbb , mint amilyennek hangzik, mert egy teljes billió paraméteres modell memóriában tartása fogyasztói dobozokon az igazán nehéz dolog, amit véghezvittek. És ettől lesz kevésbé lenyűgöző, mint amit a főcím sugall, mert a tényleges tokenenkénti munkaterhelés valami olyasmi, amit egyes dobozok kisebb MoE modelleken már most gyorsabban megrágnak. Egy 120B MoE modell 50-en felüli token/másodperces sebességgel fut ezen csomópontok egyikén. A billió paraméteres szám valós, de ez egy memória-fitogtatás, nem egy számítási fitogtatás.

A tanulság: amikor egy modellhez hardvert méretezel, az aktív paraméterek száma az, amit a gépednek tokenenként táplálnia kell, nem pedig a dobozon lévő összes paraméter.

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

A Bökkenő: Mit Jelent Valójában 8 Token Másodpercenként és egy 40 Másodperctől 4 Percig Tartó Várakozás

Nyolc token másodpercenként az a szám, amely mindent eldönt, úgyhogy időzz el rajta egy pillanatra. Az AMD cikke arról számol be, hogy a klaszter körülbelül 8,30 t/s-ot generál 8 192 tokenes kontextusnál és nagyjából 9,45 t/s-ot állandósult állapotban, a promptfeldolgozás pedig 100,77 t/s körül van. Ezek rendben lévő, méltányos számok ahhoz képest, amik.

Ami fáj, az az első tokenig eltelt idő. Mielőtt a modell egyetlen szót is előállítana, el kell olvasnia a promptodat, és az AMD saját benchmark-táblázata ezt a várakozást 39,7 másodpercre teszi egy 4 096 tokenes promptnál, 90,5 másodpercre egy 8 192 tokenes promptnál, és 239,1 másodpercre egy 16 384 tokenes promptnál bekapcsolt Flash Attention mellett. Tehát begépelsz egy kérdést, aztán vársz. Akár majdnem négy percet is, mielőtt bármi visszajönne.

Egy interaktív kódolási hurokhoz ez kemény, és a fejlesztők a Hacker News vitában ezt nyíltan ki is mondták: egy percnél is hosszabb halott csend az első token előtt nem illik ahhoz, ahogyan bárki kódot ír egy asszisztenssel. De fordítsd meg a munkaterhelést. Ha éjszaka kötegelt feladatokat futtatsz, dokumentumokat dolgozol fel aszinkron módon, olyasmiket generálsz, amiket majd később olvasol el, vagy privát következtetést végzel, ahol az egész lényeg az, hogy semmi nem hagyja el az épületet, akkor a 8 token másodpercenként teljesen elviselhető. Úgysem a képernyőt nézted.

A csillag a végén: Ne számíts arra, hogy ezek a számok dobozból kibontva reprodukálódnak. A ROCm szoftverállomány ezen a hardveren olyan módon verzióérzékeny, ami megharap: egy GitHub issue dokumentált egy Strix Halo rendszert, amely tétlen GPU-órajeleken ragadt, és 0,5 t/s-on kúszott LLM-következtetés alatt ROCm 7.1.1 és 6.14-es Linux kernel mellett. Ez nem azt jelenti, hogy „az AMD el van rontva”, de azt igen, hogy a közzétett teljesítmény egy nagyon specifikus szoftverállományon múlik, és lehet, hogy ROCm-, kernel- és firmware-kombinációkat fogsz hajkurászni, mielőtt a szerelvényed eléri a beszámolóban szereplő számokat.

Még egy dolog, amit az ellenérzés rosszul lát, ez pedig a költség. Az emberek folyton „10 000 dolláros klaszternek” nevezik, de senki sem teszi közzé ezt rögzített anyagjegyzékként. Számold ki te magad: négy 128 GB-os Framework Desktop az 1 999 dolláros indulóáron önmagában nagyjából 8 000 dollárra tenné a gépeket, miközben egy 2026. márciusi Liliputing pillanatkép egy 128GB/1TB Framework Desktop konfigurációt 2 851 dolláron listázott, vagyis négyre nagyjából 11 400 dolláron, hálózat nélkül. Adj hozzá pár száz dollárt switchre és kábelezésre, és a gyakorlati tartomány inkább nagyjából 8,2 ezer és 11,7 ezer dollár közé esik, a konfigurációtól, a vásárlás dátumától és attól függően, mid van már meg. Nem semmi. De szerverterem sem.

Íme, ahol én kikötök az egész dologgal kapcsolatban: a klaszter működik. Hogy nyolc token másodpercenként és egy percnél is hosszabb várakozás diadal vagy játékszer-e, az teljesen attól függ, mit próbálsz építeni. Ez nem egy interaktív kódoló munkaállomás. De nem is játékszer. Ez egy valódi gép egy bizonyos fajta türelmes munkához, és úgy tenni, mintha ennél több vagy kevesebb volna, így beszél el egymás mellett mindenki ebben a vitában.

Hova is Helyezkedik El Ez Valójában

A becsületes keretezés nem az, hogy „az AMD legyőzte az Nvidiát”. Hanem az, hogy ez egy másik termék egy másik embernek. Az az olvasó, akinek ez kell, az, akinek adatvédelemre van szüksége, aki offline-t akar, vagy aki nem akar örökké tokenenként fizetni, nem pedig az, aki a lehető leggyorsabb választ hajszolja.

És az egész vállalkozás elleni legerősebb érv megérdemel egy egyenes választ: simán meg is hívhatod a Kimi API-ját. Az Artificial Analysis jelenleg úgy listázza a Kimi saját K2.5 végpontját körülbelül 56-tól 60 token/másodpercig, nagyjából 0,49 dolláros kevert árral millió tokenenként, miközben a Kimi hivatalos API-platformja K2.5 árazást listáz: 0,10 dollár/M cache-találatos bemeneti token, 0,60 dollár/M bemeneti token és 3,00 dollár/M kimeneti token. A harmadik féltől származó K2.5 szolgáltatók a routingtól függően gyorsabbak vagy olcsóbbak lehetnek, de az alaplényeg ugyanaz: az API gyorsabb, mint a klaszter, megspórolja a hardver-pesztrálást, és a legtöbb ember számára a legtöbb napon ez lesz a helyes választás.

Tehát a helyi sztori csak akkor nyer értelmet, ha a három dolog egyike igaz: az adat nem hagyhatja el a helyét (adatvédelem), a kapcsolat nem feltételezhető (offline), vagy a token-mennyiség elég magas és elég tartós ahhoz, hogy a fém birtoklása felülmúlja az örökös bérlést (költség nagy léptékben). Ezen a háromon kívül az API nyer. Ezeken belül a klaszter az egyetlen dolog, amely egyáltalán elvégzi a munkát.

Dimenzió	AMD 4-csomópontos klaszter	Kimi API / felhős útvonal
Generálási sebesség	~8-tól 9,5 t/s-ig	~56-tól 60 t/s-ig a Kimi saját K2.5 végpontján
Első tokenig eltelt idő	39,7-től 239,1 s-ig	szolgáltatófüggő, sokkal alacsonyabb
Költségmodell	~8,2 ezertől 11,7 ezer dollárig hardver	tokenenkénti API-árazás
Adatvédelem / offline	teljesen helyi	szolgáltató által tárolt
Legjobban illő felhasználási eset	privát, offline, kötegelt munka	interaktív/API-használat

A jegyzőkönyv kedvéért: az Nvidia DGX Spark-ja a kézenfekvő „de mi van ezzel” itt, és néhány tengelyen nyer, amelyeken az AMD klaszter nem. Ez egy teljesen külön küzdelem, és máshol veszem majd elő. Ha a hardver kontra felhő döntés bérlési oldalát szeretnéd, a Cloudzy GPU VPS oldala a gyakorlatiasabb összehasonlítási pont.

A Rész, Ami Valóban Számít

Hántsd le a tokensebességet és az árvitákat, és egy tény marad állva: a hardver, amely egy billió paraméteres modellt futtat, mostantól egy polc, nem egy épület.

Ez a fordulat, és könnyű szem elől téveszteni a sebesség körüli civakodás alatt. Egy évvel ezelőtt a kategóriája azoknak az embereknek, akik egy 1,04 billió paraméteres modellt futtatni tudtak, „adatközpont-üzemeltetők” volt. Pont. Most magában foglal bárkit, akinek nagyjából tízezer dollárja és némi türelme van. A határvonal nem csak egy kicsit mozdult el: egy egész új csoportnyi ember éppen átsétált egy ajtón, amely zárva volt.

Az érdekes rész az, amit ez megnyit. Privát ágensek, amelyek teljes egészében a saját hardvereden futnak. Következtetés, amely repülőgépen vagy egy légréses elválasztás mögött is működik. Modellek, amelyek fizikailag képtelenek hazatelefonálni, mert nincs hová a hívásnak mennie. Az MI olyan közgazdaságtana, ahol egy token határköltsége elektromos áram, nem pedig egy mért API-vonal. Egyik sem volt elérhető fogyasztói hardveren egy évvel ezelőtt, és az egyesített memória az a dolog, amely elérte.

Elégszer láttam ezt a mintát ahhoz, hogy óvatos legyek a „ez mindent megváltoztat”-tal. Általában nem teszi; általában a tavalyi dolog új logóval. Ez most más, és nem azért, mert gyors. Azért más, mert a padló elmozdult. A határszintű helyi következtetés lassú, drága, türelmes változata most már létezik, a gyors változat pedig csak a következő néhány hardvergeneráció őrlésén múlik. A nehéz rész sosem a sebesség lett volna. A nehéz rész a hozzáférés volt, és a hozzáférés éppen most történt meg.

A mérföldkő itt nem a sebesség. Hanem az, hogy kinek szabad belépnie a szobába. A gép, amely határszintű modelleket futtat, korábban egy épület volt. Most négy doboz egy polcon.

Gyakran ismételt kérdések

Tényleg Futtathatsz Egy Billió Paraméteres Modellt Egy Mini PC Klaszteren?

Igen, egy fontos kikötéssel. Az AMD futtatta a Kimi K2.5-öt, egy 1,04 billió paraméteres modellt, négy Ryzen AI Max+ 395 mini PC-n. A BIOS-ban a négy rendszer összesen körülbelül 384 GB dedikált VRAM-ot képes megjeleníteni; az AMD Linux-os útmutatója ezután TTM/kernel beállításokon keresztül összesen 480 GB-ra emeli a kiosztást. De a Kimi K2.5 egy Mixture-of-Experts modell: abból az 1,04 billió paraméterből csak nagyjából 32 milliárd aktiválódik egy adott tokennél. Szükséged van a memóriára, hogy mindet tárold, de a tokenenkénti számítás egy 32 milliárd paraméteres munkaterheléshez áll közelebb.

Mi az a Kimi K2.5, és Miért Számít Itt a MoE Architektúra?

A Kimi K2.5 egy nyílt súlyú nyelvi modell a Moonshot AI-tól, összesen 1,04 billió paraméterrel és 32 milliárd aktívval előrehaladásonként, egy Mixture-of-Experts felépítésre építve (384 szakértő, tokenenként 8 aktivált plusz egy megosztott). Az architektúra azért számít, mert az aktív paraméterek száma, nem a teljes, az, amit a hardverednek minden tokenhez ki kell számítania. Ezért tud egyáltalán fogyasztói dobozokon futni egy papíron billió paraméteres modell.

Elég Gyors a 8 Token Másodpercenként a Helyi MI-hez?

Teljes egészében a munkaterheléstől függ. Kötegelt feldolgozáshoz, aszinkron feladatokhoz, offline használathoz vagy privát következtetéshez, ahol semmi nem hagyhatja el a hardvered, a 8 token másodpercenként rendben van, nem a képernyőt bámulod. Interaktív kódoláshoz kemény, főleg azért, mert ezen a klaszteren az első tokenig eltelt idő körülbelül 40 másodperctől majdnem 4 percig terjed a prompt hosszától függően, és az a halott csend az első szó előtt megöl egy iteratív hurkot.

Miért Ne Használjuk Inkább Egyszerűen a Kimi API-ját?

A legtöbb ember számára kellene is. A Kimi saját K2.5 végpontja sokkal gyorsabb, mint a helyi klaszter a jelenlegi Artificial Analysis adatok szerint, és a harmadik féltől származó K2.5 szolgáltatók még gyorsabbak vagy olcsóbbak lehetnek. A helyi hardvernek csak akkor van értelme, ha adatvédelemre van szükséged (az adat nem hagyhatja el a helyét), offline képességre (nincs feltételezhető kapcsolat), vagy nagy léptékű költséghatékonyságra (tartósan magas mennyiség, ahol a birtoklás felülmúlja a bérlést). Ezeken az eseteken kívül az API a jobb választás.

Az AMD Mini PC-kből Épített Egy Billió Paraméteres MI-szuperszámítógépet