Cluster mini PC s bilionem parametrů od AMD: Co specifikace přeskakuje

Před rokem znamenalo provozování jazykového modelu s bilionem parametrů serverovnu. Racky, chlazení, účet za elektřinu, který si žádal vlastní poradu. Pak AMD zveřejnilo vývojářský článek, který ukazoval čtyři mini PC stojící na stole (takové, že byste unesli dvě naráz) a dělající stejnou práci. Čtyři identické krabičky, propojené kabely, provozující model s více parametry, než kolik hvězd uvidíte z městské ulice.

Titulek se napíše sám: "Žádný cloud. Žádné datacentrum." A je to pravda. AMD skutečně provozovalo model s 1,04 bilionu parametrů na čtyřech systémech Framework Desktop s běžným spotřebitelským křemíkem uvnitř.

Ale je tu část, kterou titulek přeskočil, a právě ta rozhoduje, jestli jde o milník, nebo o kouzelnický trik. Existuje architektonický detail, který dělá "bilion parametrů" technicky poctivým, háček, který určuje, jestli byste tu věc vůbec mohli použít, a důvod, proč na tom záleží víc, než mu připisuje hype i odpor.

Zkrácená verze

Tím modelem je Kimi K2.5 a jde o návrh typu Mixture-of-Experts: celkem 1,04 bilionu parametrů, ale na každém daném tokenu se jich aktivuje jen asi 32 miliard. "Model s bilionem parametrů" je přesné označení; výpočet na token je ale blíž zátěži třídy 32B.
Cluster generuje zhruba 8 až 9,5 tokenu za sekundu, přičemž čas do prvního tokenu se pohybuje od 39,7 do 239,1 sekundy podle toho, jak dlouhý je váš prompt. Pro dávkovou práci v pohodě. Pro interaktivní kódovací smyčku brutální.
Co se změnilo, není rychlost. Je to to, že sjednocená paměť dostala inferenci na špičkové úrovni na hardware, který si můžete koupit a postavit na polici, do kategorie, která dřív začínala na "vlastni si datacentrum".

Co AMD vlastně udělalo

Sestava je téměř antiklimatická, jakmile ji vidíte rozkreslenou. Čtyři stroje Framework Desktop , každý s Ryzen AI Max+ 395 a 128 GB sjednocené paměti LPDDR5X. V BIOSu může každý uzel vyhradit až 96 GB jako dedikovanou VRAM, neboli 384 GB napříč čtyřmi uzly; návod AMD pro Linux pak pomocí nastavení TTM/jádra zvyšuje tuto hodnotu na 120 GB na uzel, neboli 480 GB celkem. To je důležité, protože build Kimi K2.5 UD_Q2_K_XL GGUF, který AMD použilo, je uveden s 375 GB, ne 240 GB.

Lepidlem je llama.cpp běžící v režimu RPC: jeden řídicí uzel a tři RPC servery, přičemž model je rozdistribuovaný napříč všemi čtyřmi stroji. AMD uvádí propojení jako 5 Gbps Ethernet, což odpovídá vestavěnému 5Gbit Ethernet portu Framework Desktopu. To je celá sestava. Žádné exotické propojení, žádné zakázkové desky, nic, co byste si nemohli objednat dnes odpoledne.

Zajímavé slovo v tom všem je sjednocená. Na běžném PC jsou RAM vašeho CPU a VRAM vašeho GPU oddělené zásobníky a model příliš velký pro VRAM se buď přelije do pomalé systémové paměti, nebo neběží. Sjednocená paměť tu zeď boří: GPU může adresovat celý blok, což je celý důvod, proč 4,5litrový desktop dokáže vůbec pojmout kus modelu této velikosti.

Vlastní technický článek AMD popisuje konfiguraci podrobně. Co ale pořádně nepokrývá, je to, proč "bilion parametrů" dělá víc rétorické práce, než vypadá.

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

Trik: Proč je "bilion parametrů" pravda, ale ne celá pravda

Tady je to, oč se specifikace opírá, aniž by to vysvětlila: Kimi K2.5 je model typu Mixture-of-Experts, a to mění, co "bilion parametrů" v praxi znamená.

Hustý (dense) model, ten, jaký si většina lidí představí, spustí každý parametr na každý token. Hustý model se 70 miliardami parametrů provede matematiku v hodnotě 70 miliard parametrů na každém slově, které vyprodukuje. Model typu Mixture-of-Experts je postaven jinak. Kimi K2.5 má 384 oddělených "expertů", z nichž se na token aktivuje 8 plus jeden sdílený expert, napříč 61 vrstvami. Takže zatímco model nese celkem 1,04 bilionu parametrů, na jakémkoli jednotlivém dopředném průchodu se jich rozsvítí jen asi 32 miliard. Router vybírá, které experty probudit; zbytek tam pro daný token sedí a nic nedělá.

Je tedy "provozování modelu s bilionem parametrů na čtyřech mini PC" poctivé? Ano, paměť na uložení všech 1,04 bilionu parametrů skutečně potřebujete a právě ta paměť je ten těžký díl. Ale výpočet, který váš hardware musí na token provést, je úloha třídy 32B, ne třídy 1T.

Což funguje na obě strany, a tady to začíná být zajímavé. Dělá to to demo působivějším, než zní, protože udržet plný model s bilionem parametrů v paměti na spotřebitelských krabičkách je ta opravdu těžká věc, kterou dokázali. A dělá to to demo méně působivým, než titulek naznačuje, protože skutečná zátěž na token je něco, co jednotlivé krabičky už zvládají rychleji na menších MoE modelech. MoE model se 120B běží na jednom z těchto uzlůrychlostí přes 50 tokenů za sekundu. Číslo s bilionem parametrů je reálné, ale je to chvástání pamětí, ne chvástání výpočtem.

Závěr: když dimenzujete hardware pro model, počet aktivních parametrů je to, co váš stroj musí na každý token nakrmit, ne celkový počet na krabičce.

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

Háček: Co vlastně znamená 8 tokenů za sekundu a čekání od 40 sekund do 4 minut

Osm tokenů za sekundu je číslo, které rozhoduje o všem, takže se u něj na chvíli zastavte. Článek AMD uvádí, že cluster generuje asi 8,30 t/s při kontextu 8 192 tokenů a zhruba 9,45 t/s v ustáleném stavu, přičemž zpracování promptu je kolem 100,77 t/s. To jsou na to, čím jsou, slušná, férová čísla.

To, co bolí, je čas do prvního tokenu. Než model vyprodukuje jediné slovo, musí přečíst váš prompt, a vlastní benchmarková tabulka AMD klade tuto čekací dobu na 39,7 sekundy u promptu se 4 096 tokeny, 90,5 sekundy u promptu s 8 192 tokeny a 239,1 sekundy u promptu s 16 384 tokeny při zapnuté Flash Attention. Takže napíšete otázku a pak čekáte. Možná téměř čtyři minuty, než se cokoli vrátí.

Pro interaktivní kódovací smyčku je to drsné, a vývojáři v diskuzi na Hacker News to řekli zcela jasně: víc než minuta mrtvého ticha před prvním tokenem se nehodí ke způsobu, jakým kdokoli píše kód s asistentem. Ale obraťte tu zátěž. Pokud spouštíte dávkové úlohy přes noc, zpracováváte dokumenty asynchronně, generujete věci, které si přečtete později, nebo provádíte soukromou inferenci, kde je celý smysl v tom, že nic neopustí budovu, pak je 8 tokenů za sekundu zcela snesitelných. Na obrazovku jste se stejně nedívali.

Hvězdička: Nečekejte, že tato čísla zreprodukujete hned po vybalení. Softwarový stack ROCm na tomto hardwaru je citlivý na verze způsoby, které kousnou: GitHubový issue zdokumentoval systém Strix Halo zaseknutý na nečinných taktech GPU a plazící se rychlostí 0,5 t/s při LLM inferenci na ROCm 7.1.1 a jádru Linuxu 6.14. To není "AMD je rozbité", ale znamená to, že zveřejněný výkon závisí na velmi konkrétním softwarovém stacku, a možná skončíte u honění kombinací ROCm, jádra a firmwaru, než se vaše sestava trefí do čísel z článku.

Ještě jednu věc chápe ten odpor špatně, a to jsou náklady. Lidé tomu pořád říkají "cluster za 10 000 dolarů", ale nikdo to nezveřejňuje jako pevný rozpočet materiálu. Spočítejte si to sami: čtyři Framework Desktopy se 128 GB za uváděcí cenu 1 999 dolarů by samotné stroje vyšly na zhruba 8 000 dolarů, zatímco snímek z Liliputingu z března 2026 uvedl konfiguraci Framework Desktop 128GB/1TB za 2 851 dolarů, neboli asi 11 400 dolarů za čtyři před započtením sítě. Přidejte pár set dolarů na switch a kabeláž a praktické rozpětí je blíž zhruba 8,2 tis. až 11,7 tis. dolarů podle konfigurace, data nákupu a toho, co už máte. Ne nic. Ale ani serverovna.

Tady k tomu všemu docházím: cluster funguje. Jestli je osm tokenů za sekundu a víc než minutové čekání triumf, nebo hračka, závisí výhradně na tom, co se snažíte postavit. Není to interaktivní kódovací pracovní stanice. Ale není to ani hračka. Je to reálný stroj pro konkrétní druh trpělivé práce, a předstírat, že je to víc nebo míň, je přesně to, jak v této hádce všichni mluví jeden mimo druhého.

Kam to vlastně padá

Poctivé rámování není "AMD porazilo Nvidia". Je to to, že jde o jiný produkt pro jiného člověka. Čtenář, který tohle chce, je ten, kdo potřebuje soukromí, chce offline, nebo nechce platit za token navždy, ne ten, kdo honí co nejrychlejší možnou odpověď.

A nejsilnější argument proti celému tomu cvičení si zaslouží přímou odpověď: můžete prostě zavolat Kimi API. Artificial Analysis aktuálně uvádí vlastní K2.5 endpoint od Kimi kolem 56 až 60 tokenů za sekundu se smíšenou cenou kolem 0,49 dolaru za milion tokenů, zatímco oficiální API platforma Kimi uvádí ceny K2.5 na 0,10 $/M vstupních tokenů při zásahu cache, 0,60 $/M vstupních tokenů a 3,00 $/M výstupních tokenů. Třetí strany poskytující K2.5 mohou být rychlejší nebo levnější podle routingu, ale základní pointa je stejná: API je rychlejší než cluster, vyhýbá se chůvování hardwaru a pro většinu lidí ve většině dní to bude správná volba.

Lokální příběh tedy dává smysl jen tehdy, když je pravdivá jedna ze tří věcí: data nesmějí opustit budovu (soukromí), připojení nelze předpokládat (offline), nebo je objem tokenů dostatečně velký a dostatečně trvalý na to, aby vlastnictví železa porazilo jeho věčný pronájem (náklady při škálování). Mimo tyto tři vyhrává API. Uvnitř nich je cluster jediná věc, která tu práci vůbec udělá.

Dimenze	4uzlový cluster AMD	Kimi API / cloudová cesta
Rychlost generování	~8 až 9,5 t/s	~56 až 60 t/s na vlastním K2.5 endpointu od Kimi
Čas do prvního tokenu	39,7 až 239,1 s	závislé na poskytovateli, mnohem nižší
Nákladový model	~8,2 tis. až 11,7 tis. $ na hardware	ceny API za token
Soukromí / offline	plně lokální	hostováno poskytovatelem
Nejlepší případ použití	soukromá, offline, dávková práce	interaktivní/API použití

Pro pořádek, Nvidia DGX Spark je tu ten zřejmý "a co tohle" a vyhrává na některých osách, na kterých AMD cluster ne. To je celý samostatný boj, kterého se ujmu jinde. Pokud chcete stránku pronájmu v rozhodování hardware vs. cloud, GPU VPS od Cloudzy je praktičtějším srovnávacím bodem.

Část, na které vlastně záleží

Odloupněte rychlost tokenů a cenové argumenty a zůstane stát jeden fakt: hardware, který provozuje model s bilionem parametrů, je teď police, ne budova.

To je ten posun, a snadno se přehlédne pod hašteřením o rychlost. Před rokem byla kategorie lidí, kteří mohli provozovat model s 1,04 bilionu parametrů, "provozovatelé datacenter". Tečka. Teď zahrnuje kohokoli, kdo má zhruba deset tisíc a trochu trpělivosti. Ta čára se neposunula trochu: úplně nová skupina lidí právě prošla dveřmi, které byly zamčené.

Co to otevírá, je ta zajímavá část. Soukromí agenti, kteří běží zcela na hardwaru, který vlastníte. Inference, která funguje v letadle nebo za air gapem. Modely, které fyzicky nemohou zavolat domů, protože není kam ten hovor směřovat. Ekonomika AI, kde mezní náklad na token je elektřina místo měřené API linky. Nic z toho nebylo na spotřebitelském hardwaru před rokem dosažitelné, a sjednocená paměť je ta věc, která toho dosáhla.

Tenhle vzorec jsem viděl dost často na to, abych byl obezřetný vůči "tohle všechno mění". Obvykle nemění; obvykle jde o loňskou věc s novým logem. Tahle je jiná, a ne proto, že je rychlá. Je jiná, protože se posunula podlaha. Pomalá, drahá, trpělivá verze lokální inference na špičkové úrovni teď existuje, a ta rychlá verze je jen otázka toho, jak ji dalších pár generací hardwaru obrousí dolů. Tím těžkým dílem nikdy nemělo být rychlost. Tím těžkým dílem byl přístup, a přístup se právě stal.

Milníkem tady není rychlost. Je to to, kdo smí do místnosti. Stroj, který provozuje modely na špičkové úrovni, býval budova. Teď jsou to čtyři krabičky na polici.

Časté dotazy

Můžete opravdu provozovat model s bilionem parametrů na clusteru mini PC?

Ano, s jednou důležitou výhradou. AMD provozovalo Kimi K2.5, model s 1,04 bilionu parametrů, napříč čtyřmi mini PC s Ryzen AI Max+ 395. V BIOSu mohou ty čtyři systémy vyhradit celkem asi 384 GB dedikované VRAM; návod AMD pro Linux pak pomocí nastavení TTM/jádra zvyšuje alokaci na 480 GB celkem. Ale Kimi K2.5 je model typu Mixture-of-Experts: z těch 1,04 bilionu parametrů se na každém daném tokenu aktivuje jen asi 32 miliard. Potřebujete paměť, abyste je všechny udrželi, ale výpočet na token je blíž zátěži s 32 miliardami parametrů.

Co je Kimi K2.5 a proč tady architektura MoE záleží?

Kimi K2.5 je jazykový model s otevřenými vahami od Moonshot AI s celkem 1,04 bilionu parametrů a 32 miliardami aktivních na dopředný průchod, postavený na návrhu Mixture-of-Experts (384 expertů, 8 aktivovaných na token plus jeden sdílený). Architektura záleží, protože počet aktivních parametrů, ne celkový, je to, co váš hardware musí na každý token spočítat. Právě proto může model s bilionem parametrů na papíře vůbec běžet na spotřebitelských krabičkách.

Je 8 tokenů za sekundu dost rychle pro lokální AI?

Záleží to výhradně na zátěži. Pro dávkové zpracování, asynchronní úlohy, offline použití nebo soukromou inferenci, kde nic nesmí opustit váš hardware, je 8 tokenů za sekundu v pohodě, na obrazovku stejně nezíráte. Pro interaktivní kódování je to drsné, hlavně proto, že čas do prvního tokenu na tomto clusteru běží od asi 40 sekund po téměř 4 minuty podle délky promptu, a to mrtvé ticho před prvním slovem zabíjí iterativní smyčku.

Proč prostě nepoužít Kimi API?

Pro většinu lidí byste měli. Vlastní K2.5 endpoint od Kimi je v aktuálních datech Artificial Analysis mnohem rychlejší než lokální cluster a třetí strany poskytující K2.5 mohou být ještě rychlejší nebo levnější. Lokální hardware dává smysl jen tehdy, když potřebujete soukromí (data nesmějí opustit budovu), offline schopnost (žádné připojení, které lze předpokládat), nebo náklady při škálování (trvalý vysoký objem, kde vlastnictví poráží pronájem). Mimo tyto případy je API lepší volba.

AMD postavilo AI superpočítač s bilionem parametrů z mini PC