O que é memória unificada? Por que um mini PC executa um modelo de IA de 235B

Um mini PC de memória unificada de aproximadamente US$ 2.000 a US$ 3.000 pode carregar alguns modelos da classe 235B fortemente quantizados que não cabem em uma única GPU da classe H100.

Isso parece contraditório, então vamos tornar a comparação precisa. A placa cara é muito mais rápida, mas sua memória local de GPU é menor. A pequena caixa sobre a mesa pode ter um pool compartilhado maior, então o modelo consegue carregar mesmo que a geração seja lenta.

A resposta de uma palavra para como é "memória unificada". Ela aparece na ficha técnica de muitos novos mini PCs de IA e Macs como um número de destaque ("128 GB de memória unificada"), e quase ninguém explica o que ela realmente faz. É esse o objetivo aqui. Ao final, você saberá o que é a memória unificada, por que ela permite que uma máquina pequena executar um modelo que antes exigia um rack de servidor, e a ressalva que ninguém coloca no título: ele executa esse modelo lentamente.

TL;DR

Memória unificada é um único pool físico de memória que a CPU e a GPU integrada de um chip compartilham, em vez da VRAM pequena e separada de uma placa de vídeo dedicada, ao lado da sua RAM de sistema separada.
Esse pool compartilhado é grande, e a GPU geralmente consegue acessar muito mais memória do que o limite fixo de VRAM de uma placa dedicada, embora a quantidade utilizável exata dependa da plataforma, das configurações de firmware, do sistema operacional e do runtime. Então a primeira pergunta se torna: essa build quantizada cabe na memória utilizável? Um pool de 128GB pode acomodar modelos que uma placa de vídeo de 24GB ou 32GB jamais conseguiria.
A ressalva é velocidade, não tamanho. A memória unificada movimenta dados muito mais devagar do que a VRAM de uma placa dedicada. O modelo grande roda. Ele apenas gera tokens lentamente. A memória unificada permite que você execute o modelo grande, não que o execute rápido.
"Unificada" não é uma coisa só. A versão da Apple é praticamente invisível para o usuário; a versão da AMD expõe mais controles, porque as configurações de firmware e driver podem afetar quanta memória é reservada para a GPU, ou efetivamente utilizável por ela. E mais memória não significa mais rápido.

O que é memória unificada?

Imagine duas configurações. Uma placa de vídeo dedicada tem sua própria memória (VRAM) instalada bem ao lado do processador, rápida, mas pequena. Sua RAM de sistema é um segundo pool, separado, que a CPU usa. Para rodar um modelo na GPU, os dados precisam ser copiados da RAM de sistema, através do barramento PCIe, para a VRAM primeiro. Dois pools, uma etapa de cópia.

A memória unificada elimina essa divisão. É um único pool físico de memória compartilhado pela CPU e pela GPU integrada do chip, permitindo que a GPU trabalhe a partir do pool compartilhado em vez de depender de uma pequena caixa de VRAM separada. Em plataformas como a Apple Silicon, isso também evita a antiga etapa de cópia via PCIe. A própria apresentação de arquitetura da Apple descreve isso como a CPU e a GPU "trabalhando sobre a mesma memória", sem a necessidade de copiar dados através de um barramento PCIe. Um pool. Zero cópia.

O pool compartilhado costuma ser memória LPDDR5X soldada diretamente ao pacote, o que é o que permite que seja ao mesmo tempo grande e próxima do processador. Os exemplos de destaque no momento são os Macs com Apple Silicon, os sistemas Strix Halo da AMD, construídos em torno de chips como o Ryzen AI Max+ 395, e o DGX Spark da Nvidia. A plataforma de desenvolvedor Ryzen AI Halo da AMD lista 128GB de memória LPDDR5x a 256GB/s, enquanto o DGX Spark da Nvidia lista 128GB de memória de sistema unificada LPDDR5x a 273GB/s.

Memória compartilhada entre uma CPU e uma GPU integrada não é novidade. Os laptops fazem isso há anos, e geralmente era um compromisso: memória lenta e pouca dela. O que mudou foi a capacidade em largura de banda utilizável. Quando um pool compartilhado ficou grande o suficiente, na faixa dos 128GB, mantendo-se rápido o bastante para valer a pena usar, ele cruzou a linha em que modelos de pesos abertos muito grandes passaram a caber localmente. Essa é toda a história. A arquitetura é antiga; o tamanho é novo.

Uma nota sobre "vs VRAM": as pessoas perguntam se memória unificada é VRAM. Não exatamente. VRAM é memória gráfica dedicada em uma placa dedicada, rápida e separada. A memória unificada é um único pool compartilhado que faz o trabalho tanto da VRAM quanto da RAM de sistema. Ela troca a velocidade bruta da placa dedicada por tamanho e pela capacidade de pular a etapa de cópia.

Por que um modelo precisa caber na memória?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Para a inferência normal em memória, os pesos do modelo precisam ficar em memória que o processador consiga endereçar. Se a memória utilizável for pequena demais, o modelo não carregará corretamente nesse dispositivo. Algumas ferramentas conseguem transferir partes de um modelo para memória de CPU ou armazenamento, mas isso muda drasticamente o perfil de desempenho e não é o mesmo que o modelo caber confortavelmente em memória endereçável pela GPU. Capacidade é uma barreira rígida que vem antes de qualquer questão de velocidade.

É essa a alavanca que a memória unificada aciona. Muitas placas de vídeo de consumo têm 24GB de VRAM ou menos, e mesmo as placas de consumo de ponta ficam por volta de 32GB. Um modelo de 70 bilhões ou 235 bilhões de parâmetros é grande demais para isso. A aritmética bruta em 4 bits para 235B de parâmetros começa por volta de 118GB, antes do overhead de formato, dos buffers de runtime e da memória de contexto. Na prática, as builds realmente disponíveis para download variam bastante: por exemplo, a build Q4_K_M do Qwen3-235B-A22B da Ollama é listada com 142GB, enquanto quantizações mais agressivas em bits mais baixos podem chegar mais perto da faixa que uma máquina de memória unificada de 128GB consegue lidar. Então a placa feita para o trabalho fica sem espaço antes mesmo de começar. (Como esses números de memória são calculados, parâmetros vezes bytes por peso mais o overhead que o tamanho do arquivo esconde, é um assunto à parte, e o o artigo irmão sobre a matemática da quantização faz essa conta.)

Um pool unificado de 128GB muda a resposta a uma pergunta: essa build quantizada em particular cabe depois que o sistema operacional, o runtime, o cache KV e os limites de alocação da GPU tiram sua parte? Para algumas quantizações agressivas da classe 235B, sim. É por isso que uma caixa compacta de memória unificada às vezes consegue carregar um modelo que uma GPU com menos VRAM não consegue. Ela não é mais poderosa. Ela só tem um espaço maior para colocar o modelo.

É a primeira coisa que os títulos acertam e deixam sem explicar. Tamanho do pool, não potência bruta, é o que decide se o modelo roda ou não.

Por que a memória unificada é mais lenta que uma placa de vídeo?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Gerar texto um token de cada vez é limitado pela memória largura de banda, não pela velocidade com que o processador consegue fazer os cálculos. Cada token que você produz exige transmitir os pesos ativos do modelo pelo processador, então o teto de velocidade é a rapidez com que a memória consegue alimentar o chip. Essa é a bem documentada natureza "limitada pela memória" (memory-bound) da decodificação de fluxo único, o chip passa a maior parte do tempo esperando pela memória, não computando.

E é exatamente na largura de banda que a memória unificada perde terreno. O pool Strix Halo da AMD roda a 256GB/s no papel, e testes independentes no llm-tracker.info medem cerca de 212GB/s na prática. O DGX Spark fica em 273GB/s. Uma placa de vídeo dedicada de ponta, em contraste, movimenta dados várias vezes mais rápido, sua VRAM dedicada foi construída para isso. Então, quando um modelo cabe ambos tanto em uma caixa unificada quanto em uma placa dedicada, a placa dedicada gera tokens visivelmente mais rápido. Mesmo modelo, mesmo resultado, velocidade muito diferente.

Para modelos densos, uma regra prática útil é:

tokens por segundo ≈ largura de banda da memória ÷ tamanho do modelo em memória.

Ela é orientativa, não um benchmark, mas explica a compensação: pesos residentes menores ou largura de banda maior geralmente significam decodificação mais rápida. Para modelos MoE, não aplique a regra diretamente à contagem total de parâmetros. A capacidade ainda depende dos pesos totais armazenados, mas a velocidade por token depende mais do caminho ativado, do overhead de roteamento, do comportamento do cache e da implementação.

Uma nuance, e então deixo isso de lado: uma requisição tem duas fases. Ler seu prompt (prefill) depende de computação. Gerar a resposta (decode) depende de largura de banda. A parte lenta que você sente, palavras aparecendo uma de cada vez, é a parte limitada pela largura de banda.

Então aqui está a conclusão que a ficha técnica omite: a memória unificada permite que você execute o modelo grande, não que o execute rápido. Ela vence o argumento da capacidade e perde o da largura de banda. Se essa troca vale a pena depende inteiramente do que você está fazendo, e é uma troca justa de se fazer de propósito, não uma surpresa a se descobrir depois da compra.

Toda memória unificada é igual?

Não. "Unificada" descreve uma categoria, não uma única implementação, e as versões diferem de formas que importam. A versão da Apple é praticamente invisível para o usuário: a memória é compartilhada por padrão. O Strix Halo da AMD exige mais intervenção: as configurações de firmware e driver podem afetar quanta memória é reservada para a GPU, ou efetivamente utilizável por ela. Ambas são memória unificada. Não são a mesma experiência.

Deixe-me nomear o equívoco que todo esse assunto produz, porque é o mais comum: mais memória não significa inferência mais rápida. Significa que um maior modelo consegue rodar. Alguém compra uma caixa de 128GB esperando velocidade, carrega um modelo que também cabe em uma placa dedicada de 24GB, e fica desapontado por ela rodar mais devagar do que a placa menor rodava. Ambas as afirmações são verdadeiras ao mesmo tempo: o pool grande cabe mais, e a placa pequena e rápida roda mais rápido no que ambas compartilham. Tamanho e velocidade são eixos diferentes. A memória unificada compra a você o primeiro.

Uma sutileza prática do lado da AMD: quanto do pool é de fato utilizável para um modelo depende da configuração de firmware e do sistema operacional. As perguntas frequentes sobre Variable Graphics Memory da AMD explica como essa alocação funciona; a versão resumida é que uma caixa de 128GB não entrega todos os 128GB à GPU, e a quantidade utilizável depende da configuração de VGM, da memória de sistema reservada, do sistema operacional e do runtime. Planeje com base na memória utilizável, não no número da etiqueta.

Dica profissional: ao dimensionar uma máquina para modelos locais, leia a ficha técnica como dois números, não um. A capacidade diz quais modelos cabem. A largura de banda diz quão rápido eles vão rodar depois que couberem. Uma caixa com um pool enorme e largura de banda modesta é uma caixa que roda modelos grandes lentamente, o que pode ser exatamente o que você quer, desde que você já soubesse disso de antemão.

Há mais um caso que vale a pena destacar, porque confunde as pessoas nessas máquinas de pool grande: modelos Mixture-of-Experts. Um modelo como Qwen3-235B-A22B tem 235 bilhões de parâmetros no total, mas ativa apenas cerca de 22 bilhões deles por token. É tentador presumir que isso significa que ele só precisa de memória para a fatia ativa. Para a inferência normal em memória, não é o caso. Todos os 235 bilhões de pesos ainda precisam estar residentes em algum lugar que o runtime possa usar, porque qualquer token pode ser roteado para qualquer especialista: apenas o cálculo por token é reduzido, não o requisito de capacidade. É exatamente nessa distinção que o grande pool da memória unificada compensa, e o o artigo irmão sobre a matemática da quantização explica a que esses números correspondem.

Perguntas frequentes

A memória unificada é a mesma coisa que VRAM?

Não. A VRAM é memória dedicada de alta velocidade embutida em uma placa de vídeo dedicada, mantida separada da sua RAM de sistema. A memória unificada é um único pool compartilhado que tanto a CPU quanto a GPU usam, fazendo o trabalho da VRAM e da RAM de sistema ao mesmo tempo. A memória unificada costuma ser maior, mas mais lenta do que a VRAM de uma placa dedicada, e ela pula a etapa de copiar dados entre dois pools.

Por que meu modelo local é lento mesmo cabendo na memória?

Porque caber e rodar rápido são duas coisas diferentes. Se um modelo carrega depende da capacidade de memória; quão rápido ele gera texto depende da largura de banda da memória. A memória unificada tem bastante capacidade, mas largura de banda muito menor do que uma placa de vídeo dedicada, então um modelo que cabe confortavelmente ainda pode gerar tokens lentamente. Para modelos densos, a relação aproximada é tokens por segundo ≈ largura de banda ÷ tamanho do modelo. Para modelos MoE, a capacidade ainda depende dos pesos totais armazenados, mas a velocidade depende mais do caminho ativado e da implementação do runtime.

Você ainda precisa de uma GPU se tiver memória unificada?

A GPU integrada já faz parte de um chip de memória unificada, é ela quem executa o modelo. A verdadeira questão é se você também quer uma GPU dedicada. Muitas placas dedicadas oferecem largura de banda muito maior, o que significa geração mais rápida, mas menos memória local do que um grande sistema de memória unificada, então elas podem não conseguir armazenar os maiores modelos sozinhas. A memória unificada oferece um pool grande que acomoda modelos grandes em velocidade menor. O que você quer depende do tamanho do modelo versus velocidade.

Por que um mini PC consegue rodar um modelo que precisa de uma GPU de datacenter?

Porque o gargalo para carregar um modelo é a capacidade de memória, e um mini PC com um grande pool unificado pode ter mais memória de modelo utilizável do que muitas configurações de GPU única. Uma GPU de consumo pode ter de 24 a 32GB de VRAM, e uma única GPU de datacenter da classe H100 tem de 80 a 94GB, enquanto alguns sistemas de memória unificada anunciam pools compartilhados de 128GB. Os pesos do modelo precisam caber, todos, em algum lugar que o processador consiga alcançar; o grande pool compartilhado os acomoda, a pequena VRAM rápida não. O mini PC não é mais poderoso. Ele só tem espaço.

Caber é a vitória: quanto ele precisa é a próxima pergunta

A contribuição da memória unificada é uma coisa clara: um pool grande, compartilhado e endereçável que permite que uma máquina pequena acomodar modelos que antes exigiam um servidor. Essa é a vitória de capacidade. A ressalva da largura de banda é o preço, e agora você consegue ler uma ficha técnica sabendo qual número rege qual comportamento.

A próxima pergunta natural é aquela que este artigo continuou repassando: quanta memória um determinado modelo realmente precisa? Isso é aritmética: parâmetros, bytes por peso, o nível de compressão que você escolhe e o imposto de contexto que o tamanho do arquivo esconde. artigo irmão sobre quantização GGUF, GPTQ, AWQ e EXL2 faz exatamente essa conta, e vale a pena fazê-la antes de dimensionar uma máquina ou escolher um modelo.

O que é memória unificada e por que ela permite que um mini PC execute um modelo de 235B?