Un anno fa, far girare un modello linguistico da mille miliardi di parametri significava una sala server. Rack, raffreddamento, una bolletta elettrica che richiedeva una riunione a parte. Poi AMD ha pubblicato un articolo tecnico per sviluppatori che mostrava quattro mini PC poggiati su una scrivania (di quelli che potresti trasportare due alla volta) mentre svolgevano lo stesso lavoro. Quattro piccole scatole identiche, collegate via cavo, che facevano girare un modello con più parametri di quante stelle si vedono dalla strada di una città.
Il titolo si scrive da solo: "Niente cloud. Niente data center." Ed è vero. AMD ha davvero fatto girare un modello da 1,04 mila miliardi di parametri su quattro sistemi Framework Desktop con dentro silicio di livello consumer.
Ma c'è una parte che il titolo ha saltato, ed è la parte che decide se questo sia una pietra miliare o un trucco di magia. C'è un dettaglio architetturale che rende "mille miliardi di parametri" tecnicamente onesto, un trabocchetto che determina se potresti davvero usare questa cosa, e un motivo per cui conta più di quanto gli diano credito sia l'entusiasmo sia le critiche.
La versione breve
- Il modello è Kimi K2.5, ed è un progetto Mixture-of-Experts: 1,04 mila miliardi di parametri totali, ma solo circa 32 miliardi di essi si attivano su un dato token. "Modello da mille miliardi di parametri" è corretto; il calcolo per token è più vicino a un carico di lavoro della classe 32B.
- Il cluster genera circa 8-9,5 token al secondo, con un tempo al primo token che va da 39,7 a 239,1 secondi a seconda della lunghezza del prompt. Va bene per il lavoro batch. Brutale per un ciclo di coding interattivo.
- Ciò che è cambiato non è la velocità. È che la memoria unificata ha portato l'inferenza su scala di frontiera su hardware che puoi comprare e mettere su uno scaffale, una categoria che prima partiva da "possiedi un data center".
Cosa Ha Fatto Davvero AMD
La configurazione è quasi un anticlimax una volta che la vedi disposta. Quattro macchine Framework Desktop , ciascuna con un Ryzen AI Max+ 395 e 128 GB di memoria unificata LPDDR5X. Nel BIOS, ogni nodo può esporre fino a 96 GB come VRAM dedicata, ovvero 384 GB sui quattro nodi; la guida Linux di AMD usa poi impostazioni TTM/kernel per portarla a 120 GB per nodo, ovvero 480 GB in totale. Questo conta perché la build GGUF Kimi K2.5 UD_Q2_K_XL usata da AMD è indicata a 375 GB, non 240 GB.
Il collante è llama.cpp che gira in modalità RPC: un nodo controller e tre server RPC, con il modello distribuito su tutte e quattro le macchine. AMD indica l'interconnessione come Ethernet a 5 Gbps, il che si adatta alla porta Ethernet 5Gbit integrata del Framework Desktop. Ecco l'intero impianto. Nessuna interconnessione esotica, nessuna scheda personalizzata, niente che non potresti ordinare questo pomeriggio.
La parola interessante in tutto questo è unificata. Su un PC normale, la RAM della tua CPU e la VRAM della tua GPU sono pool separati, e un modello troppo grande per la VRAM o sborda nella lenta memoria di sistema o non gira affatto. La memoria unificata abbatte quel muro: la GPU può indirizzare l'intero banco, che è l'intera ragione per cui un desktop da 4,5 litri può contenere una porzione di un modello di queste dimensioni in primo luogo.
L'articolo tecnico di AMD copre la configurazione in dettaglio. Ciò che non copre davvero è perché "mille miliardi di parametri" stia facendo più lavoro retorico di quanto sembri.
Il Trucco: Perché "Mille Miliardi di Parametri" È Vero ma Non Tutta la Verità
Ecco la cosa su cui la scheda tecnica si appoggia senza spiegarla: Kimi K2.5 è un modello Mixture-of-Experts, e questo cambia ciò che "mille miliardi di parametri" significa nella pratica.
Un modello denso, il tipo che la maggior parte delle persone immagina, esegue ogni parametro per ogni token. Un modello denso da 70 miliardi di parametri fa calcoli per un valore di 70 miliardi di parametri su ogni parola che produce. Un modello Mixture-of-Experts è costruito in modo diverso. Kimi K2.5 ha 384 "esperti" separati, 8 dei quali si attivano per token più un esperto condiviso, su 61 layer. Quindi, mentre il modello porta in totale 1,04 mila miliardi di parametri, solo circa 32 miliardi di essi si accendono su ogni singolo passaggio in avanti. Un router sceglie quali esperti svegliare; il resto rimane lì a non fare nulla per quel token.
Quindi è onesto dire di "far girare un modello da mille miliardi di parametri su quattro mini PC"? Sì, hai davvero bisogno della memoria per contenere tutti gli 1,04 mila miliardi di parametri, e quella memoria è la parte difficile. Ma il calcolo che il tuo hardware deve fare per token è un lavoro della classe 32B, non della classe 1T.
Il che taglia in entrambe le direzioni, ed è qui che diventa interessante. Rende la dimostrazione più impressionante di quanto sembri, perché tenere un intero modello da mille miliardi di parametri in memoria su scatole consumer è la cosa davvero difficile che hanno realizzato. E la rende meno impressionante di quanto il titolo lasci intendere, perché il carico di lavoro effettivo per token è qualcosa che singole scatole già masticano più velocemente su modelli MoE più piccoli. Un modello MoE da 120B gira a oltre 50 token al secondo su uno di questi nodi. Il numero di mille miliardi di parametri è reale, ma è una flessione di memoria, non una flessione di calcolo.
La conclusione: quando dimensioni l'hardware per un modello, il conteggio dei parametri attivi è ciò che la tua macchina deve alimentare per token, non il totale presente sulla scatola.
Il Trabocchetto: Cosa Significano Davvero 8 Token al Secondo e un'Attesa da 40 Secondi a 4 Minuti
Otto token al secondo è il numero che decide tutto, quindi soffermati su di esso per un momento. L'articolo di AMD riporta che il cluster genera circa 8,30 t/s con un contesto da 8.192 token e all'incirca 9,45 t/s a regime stazionario, con un'elaborazione del prompt attorno ai 100,77 t/s. Sono numeri buoni e giusti per quello che sono.
Quello che fa male è il tempo al primo token. Prima che il modello produca una singola parola, deve leggere il tuo prompt, e la tabella di benchmark di AMD stessa fissa quell'attesa a 39,7 secondi per un prompt da 4.096 token, 90,5 secondi per un prompt da 8.192 token, e 239,1 secondi per un prompt da 16.384 token con Flash Attention abilitato. Quindi digiti una domanda, e poi aspetti. Possibilmente per quasi quattro minuti, prima che torni qualcosa.
Per un ciclo di coding interattivo, è dura, e gli sviluppatori nella discussione su Hacker News lo hanno detto chiaramente: oltre un minuto di silenzio prima del primo token non si adatta al modo in cui chiunque scrive codice con un assistente. Ma ribalta il carico di lavoro. Se fai girare job batch durante la notte, elabori documenti in modo asincrono, generi cose che leggerai più tardi, o fai inferenza privata dove l'intero punto è che nulla esca dall'edificio, 8 token al secondo sono del tutto vivibili. Tanto non stavi guardando lo schermo.
L'asterisco: Non aspettarti che questi numeri si riproducano già pronti. Lo stack software ROCm su questo hardware è sensibile alla versione in modi che mordono: un issue su GitHub ha documentato un sistema Strix Halo bloccato a frequenze GPU di idle e che arrancava a 0,5 t/s sotto inferenza LLM su ROCm 7.1.1 e kernel Linux 6.14. Non è che "AMD sia rotto", ma significa che le prestazioni pubblicate dipendono da uno stack software molto specifico, e potresti finire a rincorrere combinazioni di ROCm, kernel e firmware prima che il tuo impianto eguagli i numeri dell'articolo.
Un'altra cosa che le critiche sbagliano, ovvero il costo. La gente continua a chiamarlo un "cluster da 10.000 dollari", ma nessuno lo pubblica come una distinta materiali fissa. Fai tu stesso l'aritmetica: quattro Framework Desktop da 128 GB al prezzo di lancio di 1.999 dollari porterebbero le sole macchine a circa 8.000 dollari, mentre uno snapshot di Liliputing di marzo 2026 elencava una configurazione Framework Desktop da 128GB/1TB a 2.851 dollari, ovvero circa 11.400 dollari per quattro prima della rete. Aggiungi qualche centinaio di dollari per switch e cablaggio, e l'intervallo pratico è più vicino a circa 8,2K-11,7K dollari a seconda della configurazione, della data di acquisto e di cosa hai già. Non è nulla. Ma nemmeno una sala server.
Ecco dove approdo su tutta la faccenda: il cluster funziona. Se otto token al secondo e oltre un minuto di attesa siano un trionfo o un giocattolo dipende interamente da cosa stai cercando di costruire. Non è una workstation di coding interattivo. Ma non è nemmeno un giocattolo. È una macchina reale per un tipo specifico di lavoro paziente, e fingere che sia più o meno di questo è il modo in cui tutti in questa discussione finiscono per parlarsi addosso.
Dove Approda Davvero Tutto Questo
L'inquadramento onesto non è "AMD ha battuto Nvidia". È che si tratta di un prodotto diverso per una persona diversa. Il lettore che vuole questo è quello che ha bisogno di privacy, vuole l'offline, o non vuole pagare per token in eterno, non quello che insegue la risposta più veloce possibile.
E l'argomento più forte contro l'intero esercizio merita una risposta diretta: puoi semplicemente usare l'API di Kimi. Artificial Analysis attualmente elenca l'endpoint K2.5 di Kimi stesso attorno a 56-60 token al secondo con un prezzo combinato attorno a 0,49 dollari per milione di token, mentre la piattaforma API ufficiale di Kimi elenca i prezzi di K2.5 a 0,10$/M token di input con cache-hit, 0,60$/M token di input, e 3,00$/M token di output. I fornitori terzi di K2.5 possono essere più veloci o più economici a seconda del routing, ma il punto di base è lo stesso: l'API è più veloce del cluster, evita di dover assistere l'hardware, e sarà la scelta giusta per la maggior parte delle persone nella maggior parte dei giorni.
Quindi la storia locale ha senso solo quando una di tre cose è vera: i dati non possono uscire (privacy), la connessione non può essere data per scontata (offline), o il volume di token è abbastanza alto e abbastanza sostenuto che possedere il ferro batte affittarlo in eterno (costo su scala). Al di fuori di queste tre, l'API vince. Al loro interno, il cluster è l'unica cosa che fa il lavoro.
| Dimensione | Cluster a 4 nodi di AMD | API Kimi / rotta cloud |
|---|---|---|
| Velocità di generazione | ~8-9,5 t/s | ~56-60 t/s sull'endpoint K2.5 di Kimi stesso |
| Tempo al primo token | da 39,7 a 239,1 s | dipende dal fornitore, molto più basso |
| Modello di costo | ~8,2K-11,7K dollari di hardware | prezzo API per token |
| Privacy / offline | completamente locale | ospitato dal fornitore |
| Caso d'uso ideale | lavoro privato, offline, batch | uso interattivo/API |
Per la cronaca, il DGX Spark di Nvidia è l'ovvio "ma e invece" qui, e vince su alcuni assi su cui il cluster AMD non vince. È tutta una battaglia separata, e una che affronterò altrove. Se vuoi il lato del noleggio della decisione hardware-vs-cloud, la GPU VPS di Cloudzy è il punto di confronto più pratico.
La Parte Che Conta Davvero
Togli di mezzo il tasso di token e gli argomenti sul prezzo, e rimane in piedi un fatto: l'hardware che fa girare un modello da mille miliardi di parametri è ora uno scaffale, non un edificio.
Questo è lo spostamento, ed è facile non coglierlo sotto i battibecchi sulla velocità. Un anno fa, la categoria di persone che potevano far girare un modello da 1,04 mila miliardi di parametri era "operatori di data center". Punto. Ora include chiunque abbia all'incirca diecimila dollari e un po' di pazienza. La linea non si è mossa di poco: un gruppo del tutto nuovo di persone è appena passato attraverso una porta che era chiusa a chiave.
Ciò che si apre è la parte interessante. Agenti privati che girano interamente su hardware che possiedi. Inferenza che funziona su un aereo o dietro un air gap. Modelli che fisicamente non possono telefonare a casa perché non c'è nessun posto dove la chiamata possa andare. Un'economia dell'IA dove il costo marginale di un token è elettricità invece di una linea API a consumo. Niente di tutto questo era raggiungibile su hardware consumer un anno fa, e la memoria unificata è la cosa che l'ha raggiunto.
Ho osservato questo schema abbastanza volte da diffidare di "questo cambia tutto". Di solito non è così; di solito è la cosa dell'anno scorso con un nuovo logo. Questa è diversa, e non perché sia veloce. È diversa perché il pavimento si è mosso. La versione lenta, costosa e paziente dell'inferenza locale su scala di frontiera esiste ora, e la versione veloce è solo una questione delle prossime generazioni di hardware che la limeranno. La parte difficile non sarebbe mai stata la velocità. La parte difficile era l'accesso, e l'accesso è appena successo.
La pietra miliare qui non è la velocità. È chi è ammesso nella stanza. La macchina che fa girare modelli su scala di frontiera era un edificio. Ora sono quattro scatole su uno scaffale.
Domande frequenti
Puoi Davvero Far Girare un Modello da Mille Miliardi di Parametri su un Cluster di Mini PC?
Sì, con un'importante riserva. AMD ha fatto girare Kimi K2.5, un modello da 1,04 mila miliardi di parametri, su quattro mini PC Ryzen AI Max+ 395. Nel BIOS, i quattro sistemi possono esporre in totale circa 384 GB di VRAM dedicata; la guida Linux di AMD alza poi l'allocazione a 480 GB totali tramite impostazioni TTM/kernel. Ma Kimi K2.5 è un modello Mixture-of-Experts: di quegli 1,04 mila miliardi di parametri, solo circa 32 miliardi si attivano su un dato token. Hai bisogno della memoria per contenerli tutti, ma il calcolo per token è più vicino a un carico di lavoro da 32 miliardi di parametri.
Cos'è Kimi K2.5 e Perché l'Architettura MoE Conta Qui?
Kimi K2.5 è un modello linguistico open-weight di Moonshot AI con 1,04 mila miliardi di parametri totali e 32 miliardi attivi per passaggio in avanti, costruito su un progetto Mixture-of-Experts (384 esperti, 8 attivati per token più uno condiviso). L'architettura conta perché il conteggio dei parametri attivi, non il totale, è ciò che il tuo hardware deve calcolare per ogni token. Ecco perché un modello con mille miliardi di parametri sulla carta può girare del tutto su scatole consumer.
8 Token al Secondo Sono Abbastanza Veloci per l'IA Locale?
Dipende interamente dal carico di lavoro. Per l'elaborazione batch, i job asincroni, l'uso offline o l'inferenza privata dove nulla può uscire dal tuo hardware, 8 token al secondo vanno bene, non stai fissando lo schermo. Per il coding interattivo, è dura, principalmente perché il tempo al primo token su questo cluster va da circa 40 secondi a quasi 4 minuti a seconda della lunghezza del prompt, e quel silenzio prima della prima parola uccide un ciclo iterativo.
Perché Non Usare Semplicemente l'API di Kimi?
Per la maggior parte delle persone, dovresti. L'endpoint K2.5 di Kimi stesso è molto più veloce del cluster locale nei dati attuali di Artificial Analysis, e i fornitori terzi di K2.5 possono essere ancora più veloci o economici. L'hardware locale ha senso solo quando hai bisogno di privacy (i dati non possono uscire), capacità offline (nessuna connessione da dare per scontata), o costo su scala (volume elevato e sostenuto dove possedere batte affittare). Al di fuori di questi casi, l'API è la scelta migliore.