Cos'è la memoria unificata? Perché un mini PC esegue un modello AI da 235B

Un mini PC con memoria unificata da circa 2.000 a 3.000 dollari può caricare alcuni modelli di classe 235B fortemente quantizzati che non entrano in una singola GPU di classe H100.

Sembra controintuitivo, quindi precisiamo il confronto. La scheda costosa è molto più veloce, ma la sua memoria GPU locale è più piccola. Il piccolo box sulla scrivania può avere un pool condiviso più ampio, quindi il modello può caricarsi anche se la generazione è lenta.

La risposta in una parola al come è "memoria unificata". Compare nella scheda tecnica di molti nuovi mini PC AI e Mac come numero in evidenza ("128 GB di memoria unificata"), e quasi nessuno spiega cosa faccia in realtà. Questo è lo scopo qui. Alla fine saprai cos'è la memoria unificata, perché permette a una macchina piccola di esecuzione un modello che un tempo richiedeva un rack server, e la fregatura che nessuno mette nel titolo: esegue quel modello lentamente.

TL;DR

La memoria unificata è un unico pool fisico di memoria condiviso dalla CPU e dalla GPU integrata di un chip, invece della piccola VRAM separata di una scheda grafica discreta, posta accanto alla RAM di sistema separata.
Questo pool condiviso è ampio, e la GPU può generalmente accedere a molta più memoria rispetto al limite fisso di VRAM di una scheda discreta, anche se la quantità effettivamente utilizzabile dipende dalla piattaforma, dalle impostazioni del firmware, dal sistema operativo e dal runtime. Quindi la prima domanda diventa: questa build quantizzata entra nella memoria utilizzabile? Un pool da 128GB può contenere modelli che una scheda grafica da 24GB o 32GB non potrebbe mai contenere.
La fregatura è la velocità, non la dimensione. La memoria unificata sposta i dati molto più lentamente della VRAM di una scheda discreta. Il modello grande funziona. Genera semplicemente i token lentamente. La memoria unificata ti permette di eseguire il modello grande, non di eseguirlo velocemente.
"Unificata" non è una cosa sola. La versione di Apple è per lo più invisibile all'utente; quella di AMD espone più controlli, perché le impostazioni di firmware e driver possono influenzare quanta memoria viene riservata alla GPU, o effettivamente utilizzabile da essa. E più memoria non significa più velocità.

Cos'è la memoria unificata?

Immagina due configurazioni. Una scheda grafica discreta ha una memoria propria (VRAM) montata proprio accanto al processore, veloce ma piccola. La RAM di sistema è un secondo pool separato usato dalla CPU. Per eseguire un modello sulla GPU, i dati devono prima essere copiati dalla RAM di sistema attraverso il bus PCIe nella VRAM. Due pool, un passaggio di copia.

La memoria unificata elimina questa separazione. È un unico pool fisico di memoria condiviso sia dalla CPU che dalla GPU integrata del chip, che permette alla GPU di lavorare direttamente dal pool condiviso invece di dipendere da un piccolo box VRAM separato. Su piattaforme come Apple Silicon, questo evita anche il vecchio passaggio di copia attraverso il bus PCIe. La stessa presentazione sull'architettura di Apple la descrive come CPU e GPU che "lavorano sulla stessa memoria", senza bisogno di copiare dati attraverso un bus PCIe. Un pool. Zero copie.

Il pool condiviso è solitamente memoria LPDDR5X saldata direttamente sul package, ed è proprio questo a permetterle di essere sia ampia sia vicina al processore. Gli esempi di punta al momento sono i Mac con Apple Silicon, i sistemi Strix Halo di AMD costruiti attorno a chip come il Ryzen AI Max+ 395, e il DGX Spark di Nvidia. La piattaforma per sviluppatori Ryzen AI Halo di AMD indica 128GB di memoria LPDDR5x a 256GB/s, mentre il DGX Spark di Nvidia indica 128GB di memoria di sistema unificata LPDDR5x a 273GB/s.

La memoria condivisa tra una CPU e una GPU integrata non è una novità. I laptop lo fanno da anni, ed era di solito un compromesso: memoria lenta, e non molta. Ciò che è cambiato è la capacità a una larghezza di banda utilizzabile. Una volta che un pool condiviso è diventato abbastanza grande, intorno alla classe dei 128GB, restando comunque abbastanza veloce da valerne la pena, ha superato la soglia oltre la quale modelli open-weight molto grandi potevano stare in locale. Questa è tutta la storia. L'architettura è vecchia; la dimensione è nuova.

Una nota su "vs VRAM": molti chiedono se la memoria unificata sia VRAM. Non proprio. La VRAM è memoria grafica dedicata su una scheda discreta, veloce e separata. La memoria unificata è un unico pool condiviso che svolge sia il compito della VRAM sia quello della RAM di sistema. Scambia la velocità pura della scheda discreta con la dimensione e la possibilità di saltare il passaggio di copia.

Perché un modello deve entrare nella memoria?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Per l'inferenza normale in memoria, i pesi del modello devono risiedere in una memoria indirizzabile dal processore. Se la memoria utilizzabile è troppo piccola, il modello non si caricherà correttamente su quel dispositivo. Alcuni strumenti possono scaricare parti di un modello sulla memoria della CPU o sullo storage, ma questo cambia drasticamente il profilo di prestazioni e non equivale al modello che entra comodamente nella memoria indirizzabile dalla GPU. La capacità è un ostacolo netto che viene prima di qualsiasi questione di velocità.

Questa è la leva che la memoria unificata attiva. Molte schede grafiche consumer hanno 24GB di VRAM o meno, e persino le schede consumer di fascia più alta si attestano intorno ai 32GB. Un modello da 70 o 235 miliardi di parametri è di gran lunga troppo grande per questo. L'aritmetica grezza a 4 bit per 235B di parametri parte da circa 118GB prima dell'overhead del formato, dei buffer di runtime e della memoria di contesto. In pratica, le build effettivamente scaricabili variano molto: per esempio, la build Q4_K_M di Qwen3-235B-A22B di Ollama è indicata a 142GB, mentre quantizzazioni più aggressive a bit ridotti possono avvicinarsi all'intervallo gestibile da una macchina con memoria unificata da 128GB. Quindi la scheda costruita apposta per questo compito finisce lo spazio prima ancora di poter cominciare. (Come vengono calcolati quei numeri di memoria, parametri moltiplicati per byte per peso più l'overhead che la dimensione del file nasconde, è un argomento a sé, e l'articolo gemello sulla matematica della quantizzazione svolge questi calcoli.)

Un pool unificato da 128GB cambia la risposta a una domanda: questa particolare build quantizzata entra dopo che il sistema operativo, il runtime, la cache KV e i limiti di allocazione della GPU hanno preso la loro parte? Per alcune quantizzazioni aggressive di classe 235B, sì. Ecco perché un box compatto con memoria unificata a volte può caricare un modello che una GPU con VRAM più piccola non può. Non è più potente. Ha semplicemente più spazio dove mettere il modello.

È la prima cosa che i titoli azzeccano ma lasciano inspiegata. È la dimensione del pool, non la potenza grezza, a decidere se il modello funziona o no.

Perché la memoria unificata è più lenta di una scheda grafica?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Generare testo un token alla volta è limitato dalla memoria larghezza di banda, non dalla velocità con cui il processore può fare i calcoli. Ogni token prodotto richiede di far scorrere i pesi attivi del modello attraverso il processore, quindi il limite di velocità è dato dalla rapidità con cui la memoria può alimentare il chip. Questa è la ben documentata natura "vincolata alla memoria" (memory-bound) della decodifica a flusso singolo, il chip trascorre la maggior parte del tempo in attesa della memoria, non a calcolare.

Ed è proprio nella larghezza di banda che la memoria unificata cede terreno. Il pool Strix Halo di AMD funziona a 256GB/s sulla carta, e test indipendenti su llm-tracker.info lo misurano intorno ai 212GB/s nella pratica. Il DGX Spark si attesta a 273GB/s. Una scheda grafica discreta di fascia alta, al contrario, sposta i dati diverse volte più velocemente, la sua VRAM dedicata è costruita proprio per questo. Quindi quando un modello entra entrambi sia in un box unificato sia in una scheda discreta, quest'ultima genera token notevolmente più veloce. Stesso modello, stesso risultato, velocità molto diversa.

Per i modelli densi, una regola pratica utile è:

token al secondo ≈ larghezza di banda della memoria ÷ dimensione del modello in memoria.

È indicativa, non un benchmark, ma spiega il compromesso: pesi residenti più piccoli o larghezza di banda maggiore di solito significano una decodifica più veloce. Per i modelli MoE, non applicare la regola direttamente al conteggio totale dei parametri. La capacità dipende ancora dai pesi totali memorizzati, ma la velocità per token dipende più dal percorso attivato, dall'overhead di routing, dal comportamento della cache e dall'implementazione.

Una sfumatura, poi la lascio stare: una richiesta ha due fasi. Leggere il tuo prompt (prefill) si basa sul calcolo. Generare la risposta (decode) si basa sulla larghezza di banda. La parte lenta che percepisci, le parole che compaiono una alla volta, è la parte vincolata dalla larghezza di banda.

Ecco quindi la conclusione che la scheda tecnica omette: la memoria unificata ti permette di eseguire il modello grande, non di eseguirlo velocemente. Vince l'argomento della capacità e perde quello della larghezza di banda. Se questo scambio valga la pena dipende interamente da cosa stai facendo, ed è uno scambio giusto da fare consapevolmente, non una sorpresa da scoprire dopo l'acquisto.

La memoria unificata è tutta uguale?

No. "Unificata" descrive una categoria, non un'unica implementazione, e le versioni differiscono in modi che contano. La versione di Apple è per lo più invisibile all'utente: la memoria è condivisa per impostazione predefinita. Lo Strix Halo di AMD richiede più intervento manuale: le impostazioni di firmware e driver possono influenzare quanta memoria viene riservata alla GPU, o effettivamente utilizzabile da essa. Entrambe sono memoria unificata. Ma non sono la stessa esperienza.

Vorrei nominare il fraintendimento che questo intero argomento genera, perché è il più comune: più memoria non significa inferenza più veloce. Significa che un più grande modello può funzionare. Qualcuno compra un box da 128GB aspettandosi velocità, carica un modello che entra anche in una scheda discreta da 24GB, e rimane deluso perché funziona più lentamente di quanto facesse sulla scheda più piccola. Entrambe le affermazioni sono vere allo stesso tempo: il pool grande contiene di più, e la scheda piccola e veloce funziona più velocemente su ciò che hanno in comune. Dimensione e velocità sono assi diversi. La memoria unificata ti compra il primo.

Una sfumatura pratica sul lato AMD: quanto del pool sia effettivamente utilizzabile per un modello dipende dall'impostazione del firmware e dal sistema operativo. Le FAQ sulla Variable Graphics Memory di AMD spiega come funziona quell'allocazione; in breve, un box da 128GB non consegna tutti i 128GB alla GPU, e la quantità utilizzabile dipende dall'impostazione VGM, dalla memoria di sistema riservata, dal sistema operativo e dal runtime. Pianifica in base alla memoria utilizzabile, non al numero riportato sull'etichetta.

Consiglio pratico: quando dimensioni una macchina per modelli locali, leggi la scheda tecnica come due numeri, non uno. La capacità ti dice quali modelli entrano. La larghezza di banda ti dice quanto velocemente gireranno una volta entrati. Un box con un pool enorme e una larghezza di banda modesta è un box che fa girare lentamente modelli grandi, il che potrebbe essere esattamente ciò che vuoi, purché tu lo sapessi già in partenza.

C'è un altro caso che vale la pena segnalare, perché confonde le persone su queste macchine con pool grandi: i modelli Mixture-of-Experts. Un modello come Qwen3-235B-A22B ha 235 miliardi di parametri totali ma ne attiva solo circa 22 miliardi per token. È allettante supporre che ciò significhi che serva memoria solo per la porzione attiva. Per l'inferenza normale in memoria, non è così. Tutti i 235 miliardi di pesi devono comunque essere residenti da qualche parte accessibile al runtime, perché qualsiasi token potrebbe instradarsi verso qualsiasi esperto: si riduce solo il calcolo per token, non il requisito di capacità. È esattamente in questa distinzione che il grande pool della memoria unificata dimostra il suo valore, e l'articolo gemello sulla matematica della quantizzazione analizza a cosa corrispondono quei numeri.

Domande frequenti

La memoria unificata è la stessa cosa della VRAM?

No. La VRAM è memoria dedicata ad alta velocità integrata in una scheda grafica discreta, tenuta separata dalla RAM di sistema. La memoria unificata è un unico pool condiviso usato sia dalla CPU sia dalla GPU, che svolge il compito di VRAM e RAM di sistema insieme. La memoria unificata è di solito più grande ma più lenta della VRAM di una scheda discreta, e salta il passaggio di copia dei dati tra due pool.

Perché il mio modello locale è lento anche se entra in memoria?

Perché entrare in memoria e girare velocemente sono due cose diverse. Se un modello si carica dipende dalla capacità della memoria; quanto velocemente genera testo dipende dalla larghezza di banda della memoria. La memoria unificata ha ampia capacità ma una larghezza di banda molto inferiore rispetto a una scheda grafica discreta, quindi un modello che entra comodamente può comunque generare token lentamente. Per i modelli densi, la relazione approssimativa è token al secondo ≈ larghezza di banda ÷ dimensione del modello. Per i modelli MoE, la capacità dipende ancora dai pesi totali memorizzati, ma la velocità dipende più dal percorso attivato e dall'implementazione del runtime.

Serve ancora una GPU se hai la memoria unificata?

La GPU integrata fa già parte di un chip con memoria unificata, ed è quella a eseguire il modello. La vera domanda è se vuoi anche una GPU discreta. Molte schede discrete offrono una larghezza di banda molto più alta, il che significa generazione più veloce, ma meno memoria locale rispetto a un grande sistema con memoria unificata, quindi da sole potrebbero non contenere i modelli più grandi. La memoria unificata ti offre un grande pool che contiene modelli grandi a velocità inferiore. Ciò che preferisci dipende dal confronto tra dimensione del modello e velocità.

Perché un mini PC può eseguire un modello che richiede una GPU da data center?

Perché il collo di bottiglia per caricare un modello è la capacità della memoria, e un mini PC con un grande pool unificato può avere più memoria modello utilizzabile rispetto a molte configurazioni a GPU singola. Una GPU consumer può avere da 24 a 32GB di VRAM, e una singola GPU da data center di classe H100 ne ha da 80 a 94, mentre alcuni sistemi con memoria unificata pubblicizzano pool condivisi da 128GB. I pesi del modello devono tutti entrare da qualche parte raggiungibile dal processore; il grande pool condiviso li contiene, la piccola e veloce VRAM no. Il mini PC non è più potente. Ha semplicemente più spazio.

Entrare è la vittoria: quanto serve è la prossima domanda

Il contributo della memoria unificata è una cosa netta: un pool grande, condiviso, indirizzabile che permette a una macchina piccola di contenere modelli che un tempo richiedevano un server. Questa è la vittoria sulla capacità. La fregatura della larghezza di banda è il prezzo da pagare, e ora puoi leggere una scheda tecnica sapendo quale numero governa quale comportamento.

La naturale domanda successiva è quella che questo articolo ha continuato a rimandare: di quanta memoria ha effettivamente bisogno un dato modello? È aritmetica: parametri, byte per peso, il livello di compressione scelto e la tassa di contesto che la dimensione del file nasconde. articolo gemello sulla quantizzazione GGUF, GPTQ, AWQ ed EXL2 svolge esattamente questi calcoli, ed è utile farli prima di dimensionare una macchina o scegliere un modello.

Cos'è la memoria unificata, e perché permette a un mini PC di eseguire un modello da 235B?