Saltar al contenido principal
50% de descuento todos los planes, tiempo limitado. Desde $2.48/mo
11 min left
IA y machine learning

¿Qué es la memoria unificada y por qué permite que un mini PC ejecute un modelo de 235 mil millones de parámetros?

B Por Brian 11 min de lectura Actualizado today
Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

Un mini PC de memoria unificada de aproximadamente 2000 a 3000 dólares puede cargar algunos modelos de clase 235B fuertemente cuantizados que no caben en un sola GPU de clase H100.

Suena al revés, así que precisemos la comparación. La tarjeta costosa es mucho más rápida, pero su memoria GPU local es menor. La pequeña caja del escritorio puede tener un conjunto de memoria compartida más grande, así que el modelo puede cargarse aunque la generación sea lenta.

La respuesta de una palabra a cómo es "memoria unificada". Aparece en la ficha técnica de muchos mini PC de IA y Mac nuevos como cifra destacada ("128 GB de memoria unificada"), y casi nadie explica qué hace en realidad. Ese es el objetivo aquí. Al final sabrás qué es la memoria unificada, por qué permite que una máquina pequeña ejecutar ejecutar un modelo que antes requería un rack de servidores, y la trampa que nadie pone en el titular: ejecuta ese modelo lentamente.

Resumen rápido

  • La memoria unificada es un único conjunto físico de memoria que la CPU y la GPU integrada de un chip comparten, en lugar de la VRAM pequeña y separada de una tarjeta gráfica dedicada situada junto a tu RAM de sistema, también separada.
  • Ese conjunto compartido es grande, y la GPU suele poder acceder a mucha más memoria que el límite fijo de VRAM de una tarjeta dedicada, aunque la cantidad utilizable exacta depende de la plataforma, los ajustes del firmware, el sistema operativo y el runtime. Así que la primera pregunta pasa a ser: ¿cabe esta versión cuantizada en la memoria utilizable? Un conjunto de 128 GB puede alojar modelos que una tarjeta gráfica de 24 GB o 32 GB jamás podría.
  • La trampa está en la velocidad, no en el tamaño. La memoria unificada mueve datos mucho más lento que la VRAM de una tarjeta dedicada. El modelo grande funciona. Simplemente genera tokens despacio. La memoria unificada te permite ejecutar el modelo grande, no ejecutarlo rápido.
  • "Unificada" no es una sola cosa. La versión de Apple es casi invisible para el usuario; la de AMD expone más ajustes, porque los parámetros de firmware y controladores pueden afectar cuánta memoria queda reservada para la GPU, o utilizable en la práctica por ella. Y más memoria no significa más rápido.

¿Qué es la memoria unificada?

Imagina dos configuraciones. Una tarjeta gráfica dedicada tiene su propia memoria (VRAM) montada justo junto a su procesador, rápida pero pequeña. Tu RAM de sistema es un segundo conjunto, separado, que usa la CPU. Para ejecutar un modelo en la GPU, los datos deben copiarse primero desde la RAM del sistema, a través del bus PCIe, hasta la VRAM. Dos conjuntos, un paso de copia.

La memoria unificada elimina esa división. Es un único conjunto físico de memoria que comparten la CPU y la GPU integrada del chip, lo que permite que la GPU trabaje directamente desde el conjunto compartido en lugar de depender de un pequeño bloque de VRAM separado. En plataformas como Apple Silicon, esto también evita el antiguo paso de copia a través de PCIe. la propia presentación de arquitectura de Apple la describe como la CPU y la GPU "trabajando sobre la misma memoria", sin necesidad de copiar datos a través de un bus PCIe. Un conjunto. Cero copias.

El conjunto compartido suele ser memoria LPDDR5X soldada al empaquetado, lo que le permite ser a la vez grande y estar cerca del procesador. Los ejemplos destacados ahora mismo son los Mac con Apple Silicon, los sistemas Strix Halo de AMD construidos en torno a chips como el Ryzen AI Max+ 395, y el DGX Spark de Nvidia. la plataforma de desarrollo Ryzen AI Halo de AMD indica 128 GB de memoria LPDDR5x a 256 GB/s, mientras que el DGX Spark de Nvidia indica 128 GB de memoria de sistema unificada LPDDR5x a 273 GB/s.

La memoria compartida entre una CPU y una GPU integrada no es nueva. Los portátiles lo hacen desde hace años, y solía ser un compromiso: memoria lenta y poca cantidad. Lo que cambió es la capacidad con ancho de banda utilizable. Una vez que un conjunto compartido se hizo lo bastante grande, en torno a la clase de 128 GB, manteniéndose lo bastante rápido para que valiera la pena, cruzó el umbral en el que modelos de pesos abiertos muy grandes podían caber localmente. Esa es toda la historia. La arquitectura es antigua; el tamaño es nuevo.

Una nota sobre "vs VRAM": la gente pregunta si la memoria unificada es VRAM. No exactamente. La VRAM es memoria gráfica dedicada en una tarjeta separada, rápida y distinta. La memoria unificada es un único conjunto compartido que hace el trabajo tanto de la VRAM como de la RAM del sistema. Cambia la velocidad bruta de la tarjeta dedicada por tamaño y la posibilidad de saltarse el paso de copia.

¿Por qué un modelo necesita caber en la memoria?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Para una inferencia normal en memoria, los pesos del modelo deben residir en memoria direccionable por el procesador. Si la memoria utilizable es demasiado pequeña, el modelo no se cargará correctamente en ese dispositivo. Algunas herramientas pueden descargar partes de un modelo a la memoria de la CPU o al almacenamiento, pero eso cambia drásticamente el perfil de rendimiento y no es lo mismo que el modelo quepa cómodamente en memoria direccionable por la GPU. La capacidad es una barrera ineludible, previa a cualquier cuestión de velocidad.

Esta es la palanca que acciona la memoria unificada. Muchas tarjetas gráficas de consumo tienen 24 GB de VRAM o menos, e incluso las mejores tarjetas de consumo individuales rondan los 32 GB. Un modelo de 70 000 o 235 000 millones de parámetros es demasiado grande para eso. El cálculo bruto en 4 bits para 235B de parámetros empieza en torno a 118 GB, antes del sobrecoste del formato, los búferes del runtime y la memoria de contexto. En la práctica, las versiones descargables reales varían mucho: por ejemplo, la versión Q4_K_M de Qwen3-235B-A22B de Ollama figura con 142 GB, mientras que cuantizaciones más agresivas de menor número de bits pueden acercarse al rango que una máquina de memoria unificada de 128 GB puede manejar. Así que la tarjeta diseñada para la tarea se queda sin espacio antes incluso de empezar. (Cómo se calculan esas cifras de memoria, parámetros multiplicados por bytes por peso más el sobrecoste que oculta el tamaño del archivo, es un tema aparte, y el artículo hermano sobre los cálculos de cuantización hace el cálculo.)

Un conjunto unificado de 128 GB cambia la respuesta a una pregunta concreta: ¿cabe esta versión cuantizada en particular una vez que el sistema operativo, el runtime, la caché KV y los límites de asignación de la GPU se quedan con su parte? Para algunas cuantizaciones agresivas de clase 235B, sí. Por eso una máquina compacta de memoria unificada a veces puede cargar un modelo que una GPU con menos VRAM no puede. No es más potente. Simplemente tiene una habitación más grande donde colocar el modelo.

Eso es lo primero que los titulares aciertan y dejan sin explicar. El tamaño del conjunto, no la potencia bruta, es lo que decide si el modelo funciona siquiera.

¿Por qué la memoria unificada es más lenta que una tarjeta gráfica?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Generar texto token a token está limitado por la memoria adicional, no por la velocidad con la que el procesador puede calcular. Cada token que produces exige transmitir los pesos activos del modelo a través del procesador, así que el techo de velocidad es la rapidez con la que la memoria puede alimentar al chip. Esta es la naturaleza bien documentada naturaleza "limitada por la memoria" de la decodificación de un solo flujo, el chip pasa la mayor parte del tiempo esperando a la memoria, no calculando.

Y es exactamente en el ancho de banda donde la memoria unificada pierde terreno. El conjunto Strix Halo de AMD funciona a 256 GB/s sobre el papel, y pruebas independientes en llm-tracker.info lo miden en unos 212 GB/s en la práctica. El DGX Spark se sitúa en 273 GB/s. Una tarjeta gráfica dedicada de gama alta, en cambio, mueve datos varias veces más rápido, su VRAM dedicada está diseñada para eso. Así que cuando un modelo cabe en ambas tanto una máquina unificada como una tarjeta dedicada, la tarjeta dedicada genera tokens notablemente más rápido. Mismo modelo, mismo resultado, velocidad muy distinta.

Para modelos densos, una regla práctica útil es:

tokens por segundo ≈ ancho de banda de memoria ÷ tamaño del modelo en memoria.

Es orientativo, no un benchmark, pero explica el compromiso: pesos residentes más pequeños o un ancho de banda mayor suelen significar una decodificación más rápida. Para modelos MoE, no apliques la regla directamente al número total de parámetros. La capacidad sigue dependiendo del total de pesos almacenados, pero la velocidad por token depende más de la ruta activada, el sobrecoste de enrutamiento, el comportamiento de la caché y la implementación.

Un matiz, y luego lo dejo estar: una solicitud tiene dos fases. Leer tu prompt (prellenado) depende del cómputo. Generar la respuesta (decodificación) depende del ancho de banda. La parte lenta que sientes, las palabras apareciendo una a una, es la parte limitada por el ancho de banda.

Así que aquí está la conclusión que la ficha técnica omite: la memoria unificada te permite ejecutar el modelo grande, no ejecutarlo rápido. Gana el debate de la capacidad y pierde el del ancho de banda. Que ese intercambio valga la pena depende por completo de lo que estés haciendo, y es un intercambio perfectamente razonable de hacer a propósito, no una sorpresa que descubrir después de comprar.

¿Es toda la memoria unificada igual?

No. "Unificada" describe una categoría, no una única implementación, y las versiones difieren de formas que importan. La versión de Apple es casi invisible para el usuario: la memoria se comparte por defecto. El Strix Halo de AMD requiere más intervención: los ajustes de firmware y controladores pueden afectar cuánta memoria queda reservada para la GPU, o utilizable en la práctica por ella. Ambas son memoria unificada. No son la misma experiencia.

Voy a nombrar el malentendido que produce todo este tema, porque es el más común: más memoria no significa una inferencia más rápida. Significa que un más grande modelo puede ejecutarse. Alguien compra una máquina de 128 GB esperando velocidad, carga un modelo que también cabe en una tarjeta dedicada de 24 GB, y se decepciona porque va más lento de lo que iba con la tarjeta pequeña. Ambas afirmaciones son ciertas a la vez: el conjunto grande cabe más, y la tarjeta pequeña y rápida va más rápido en lo que comparten. Tamaño y velocidad son ejes distintos. La memoria unificada te compra el primero.

Una arruga práctica del lado de AMD: cuánto del conjunto es realmente utilizable para un modelo depende del ajuste del firmware y del sistema operativo. las preguntas frecuentes de AMD sobre Variable Graphics Memory explica cómo funciona esa asignación; la versión corta es que una máquina de 128 GB no le entrega la totalidad de los 128 GB a la GPU, y la cantidad utilizable depende del ajuste de VGM, la memoria de sistema reservada, el sistema operativo y el runtime. Planifica en torno a la memoria utilizable, no a la cifra de la etiqueta.

Consejo profesional: cuando dimensiones una máquina para modelos locales, lee la ficha técnica como dos cifras, no una. La capacidad te dice qué modelos caben. El ancho de banda te dice a qué velocidad correrán una vez cargados. Una máquina con un conjunto enorme y un ancho de banda modesto es una máquina que ejecuta modelos grandes lentamente, lo cual puede ser exactamente lo que quieres, siempre que lo supieras de antemano.

Queda un caso más que vale la pena señalar, porque confunde a la gente en estas máquinas de conjunto grande: los modelos Mixture-of-Experts. Un modelo como Qwen3-235B-A22B tiene 235 mil millones de parámetros en total, pero solo activa unos 22 mil millones por token. Es tentador suponer que eso significa que solo necesita memoria para la porción activa. Para una inferencia normal en memoria, no es así. Los 235 mil millones de pesos siguen necesitando residir en algún lugar que el runtime pueda usar, porque cualquier token puede enrutarse a cualquier experto: solo se reduce el cómputo por token, no el requisito de capacidad. Esa distinción es exactamente donde el gran conjunto de la memoria unificada se gana su lugar, y el artículo hermano sobre los cálculos de cuantización detalla en qué se traducen esas cifras.

Preguntas frecuentes

¿Es la memoria unificada lo mismo que la VRAM?

No. La VRAM es memoria dedicada de alta velocidad integrada en una tarjeta gráfica dedicada, mantenida separada de tu RAM de sistema. La memoria unificada es un único conjunto compartido que usan tanto la CPU como la GPU, haciendo a la vez el trabajo de VRAM y de RAM de sistema. La memoria unificada suele ser mayor pero más lenta que la VRAM de una tarjeta dedicada, y se salta el paso de copiar datos entre dos conjuntos.

¿Por qué mi modelo local es lento aunque quepa en la memoria?

Porque caber y correr rápido son dos cosas distintas. Que un modelo cargue depende de la capacidad de memoria; la velocidad con la que genera texto depende del ancho de banda de memoria. La memoria unificada tiene mucha capacidad pero un ancho de banda mucho menor que una tarjeta gráfica dedicada, así que un modelo que cabe cómodamente puede seguir generando tokens despacio. Para modelos densos, la relación aproximada es tokens por segundo ≈ ancho de banda ÷ tamaño del modelo. Para modelos MoE, la capacidad sigue dependiendo del total de pesos almacenados, pero la velocidad depende más de la ruta activada y de la implementación del runtime.

¿Sigues necesitando una GPU si tienes memoria unificada?

La GPU integrada ya forma parte de un chip de memoria unificada, es la que ejecuta el modelo. La verdadera pregunta es si además quieres una GPU dedicada. Muchas tarjetas dedicadas te dan un ancho de banda mucho mayor, lo que significa generación más rápida, pero menos memoria local que un gran sistema de memoria unificada, así que pueden no albergar por sí solas los modelos más grandes. La memoria unificada te da un gran conjunto que aloja modelos grandes a menor velocidad. Lo que quieras depende del tamaño del modelo frente a la velocidad.

¿Por qué un mini PC puede ejecutar un modelo que necesita una GPU de centro de datos?

Porque el cuello de botella para cargar un modelo es la capacidad de memoria, y un mini PC con un gran conjunto unificado puede tener más memoria de modelo utilizable que muchas configuraciones de GPU única. Una GPU de consumo puede tener de 24 a 32 GB de VRAM, y una sola GPU de centro de datos de clase H100 tiene de 80 a 94 GB, mientras que algunos sistemas de memoria unificada anuncian conjuntos compartidos de 128 GB. Los pesos del modelo tienen que caber todos en algún sitio al que el procesador pueda acceder; el gran conjunto compartido los aloja, la VRAM pequeña y rápida no. El mini PC no es más potente. Simplemente tiene espacio.

Caber es la victoria: cuánto necesita es la siguiente pregunta

La contribución de la memoria unificada es una cosa clara: un conjunto grande, compartido y direccionable que permite que una máquina pequeña alojar modelos que antes requerían un servidor. Esa es la victoria de la capacidad. La trampa del ancho de banda es el precio, y ahora puedes leer una ficha técnica sabiendo qué cifra gobierna qué comportamiento.

La siguiente pregunta natural es la que este artículo ha ido postergando: ¿cuánta memoria necesita realmente un modelo dado? Eso es aritmética: parámetros, bytes por peso, el nivel de compresión que elijas, y el impuesto de contexto que oculta el tamaño del archivo. El artículo hermano sobre la cuantización GGUF, GPTQ, AWQ y EXL2 desarrolla exactamente ese cálculo, y vale la pena hacerlo antes de dimensionar una máquina o elegir un modelo.

Share

Más del blog

Sigue leyendo.

¿Listo para desplegar? Desde $2,48/mes.

Cloud independiente desde 2008. AMD EPYC, NVMe, 40 Gbps. Reembolso en 14 días.