Что такое унифицированная память? Почему мини-ПК запускает ИИ-модель на 235B параметров

Мини-ПК с унифицированной памятью стоимостью примерно от $2 000 до $3 000 способен загрузить некоторые сильно квантованные модели класса 235B, которые не помещаются в одну видеокарту класса H100.

Звучит парадоксально, поэтому уточним сравнение. Дорогая карта гораздо быстрее, но её локальная память GPU меньше. У маленькой коробки на столе может быть более крупный общий пул памяти, поэтому модель загрузится, даже если генерация будет медленной.

Ответ на вопрос «как» в одно слово: «унифицированная память». Она красуется в спецификациях многих новых ИИ-мини-ПК и Mac как главное число («128 ГБ унифицированной памяти»), и почти никто не объясняет, что она на самом деле делает. Именно этим мы здесь и займёмся. К концу статьи вы будете знать, что такое унифицированная память, почему она позволяет маленькой машине запустить запускать модель, для которой раньше требовалась серверная стойка, и в чём подвох, о котором не пишут в заголовках: эта модель работает медленно.

Кратко (TL;DR)

Унифицированная память - это единый физический пул памяти, который совместно используют CPU и встроенный GPU чипа, вместо небольшой отдельной видеопамяти (VRAM) дискретной видеокарты, стоящей рядом с отдельной оперативной памятью системы (RAM).
Этот общий пул велик, и GPU обычно может получить доступ к гораздо большему объёму памяти, чем фиксированный лимит VRAM дискретной карты, хотя точный доступный объём зависит от платформы, настроек прошивки, ОС и среды выполнения. Поэтому первый вопрос звучит так: помещается ли эта квантованная сборка в доступную память? Пул на 128 ГБ может вместить модели, которые видеокарта с 24 ГБ или 32 ГБ никогда бы не вместила.
Подвох в скорости, а не в размере. Унифицированная память передаёт данные гораздо медленнее, чем VRAM дискретной карты. Большая модель работает. Она просто медленно генерирует токены. Унифицированная память позволяет запустить большую модель, но не запустить её быстро.
«Унифицированная» - это не что-то одно. Версия Apple почти незаметна пользователю; версия AMD даёт больше настроек, поскольку параметры прошивки и драйверов могут влиять на то, сколько памяти зарезервировано для GPU или фактически доступно ему. А больше памяти не значит быстрее.

Что такое унифицированная память?

Представьте две конфигурации. У дискретной видеокарты есть собственная память (VRAM), установленная прямо рядом с процессором: быстрая, но небольшая. Оперативная память системы (RAM) - это второй, отдельный пул, который использует CPU. Чтобы запустить модель на GPU, данные сначала нужно скопировать из системной RAM через шину PCIe в VRAM. Два пула, один этап копирования.

Унифицированная память устраняет это разделение. Это единый физический пул памяти, который совместно используют CPU и встроенный GPU чипа, позволяя GPU работать прямо из общего пула вместо небольшого отдельного блока VRAM. На платформах вроде Apple Silicon это также избавляет от старого этапа копирования через PCIe. собственный доклад Apple об архитектуре описывает это как работу CPU и GPU «над одной и той же памятью» без необходимости копировать данные через шину PCIe. Один пул. Ноль копирований.

Общий пул обычно представляет собой память LPDDR5X, впаянную прямо в корпус чипа, что и позволяет ей быть одновременно большой и расположенной близко к процессору. Главные примеры сейчас: Mac на Apple Silicon, системы Strix Halo от AMD на базе чипов вроде Ryzen AI Max+ 395 и DGX Spark от Nvidia. платформа для разработчиков Ryzen AI Halo от AMD заявляет 128 ГБ памяти LPDDR5x с пропускной способностью 256 ГБ/с, тогда как DGX Spark от Nvidia заявляет 128 ГБ унифицированной системной памяти LPDDR5x с пропускной способностью 273 ГБ/с.

Общая память между CPU и встроенным GPU - не новость. Ноутбуки используют это годами, и обычно это был компромисс: медленная память, да ещё и в небольшом объёме. Что изменилось, так это объём при приемлемой пропускной способности. Как только общий пул стал достаточно большим, примерно класса 128 ГБ, оставаясь при этом достаточно быстрым, чтобы его было целесообразно использовать, он пересёк черту, за которой очень крупные модели с открытыми весами стали помещаться локально. Вот и вся история. Архитектура старая, новизна в размере.

Пояснение к вопросу «в сравнении с VRAM»: люди спрашивают, является ли унифицированная память видеопамятью VRAM. Не совсем. VRAM - это выделенная графическая память на отдельной карте, быстрая и обособленная. Унифицированная память - это единый общий пул, выполняющий роль и VRAM, и системной RAM одновременно. Она обменивает чистую скорость дискретной карты на размер и возможность пропустить этап копирования.

Почему модель должна помещаться в память?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Для обычного инференса в памяти веса модели должны находиться в памяти, доступной процессору. Если доступной памяти слишком мало, модель не загрузится корректно на этом устройстве. Некоторые инструменты могут выгружать части модели в память CPU или на диск, но это резко меняет профиль производительности и не то же самое, что модель, комфортно помещающаяся в память, адресуемую GPU. Объём памяти - это жёсткий барьер, который встаёт раньше любого вопроса о скорости.

Именно этот рычаг и задействует унифицированная память. У многих потребительских видеокарт 24 ГБ VRAM или меньше, а даже у топовых одиночных потребительских карт объём около 32 ГБ. Модель на 70 или 235 миллиардов параметров для этого слишком велика. Грубый расчёт в 4-битной арифметике для 235B параметров начинается примерно с 118 ГБ, ещё до накладных расходов формата, буферов среды выполнения и памяти контекста. На практике реальные загружаемые сборки сильно различаются: например, сборка Q4_K_M модели Qwen3-235B-A22B от Ollama указана как 142 ГБ, тогда как более агрессивные квантования с меньшим числом бит могут приблизиться к диапазону, с которым способна справиться машина с 128 ГБ унифицированной памяти. Таким образом, карта, созданная именно для этой задачи, исчерпывает место ещё до начала работы. (Как рассчитываются эти цифры памяти: параметры, умноженные на байты на вес, плюс накладные расходы, скрытые размером файла, это отдельная тема, и смежная статья о математике квантования проделывает эти вычисления.)

Унифицированный пул на 128 ГБ меняет ответ на один вопрос: помещается ли эта конкретная квантованная сборка после того, как свою долю заберут ОС, среда выполнения, KV cache и лимиты выделения памяти GPU? Для некоторых агрессивных квантований класса 235B ответ - да. Именно поэтому компактная машина с унифицированной памятью иногда способна загрузить модель, которую GPU с меньшим объёмом VRAM загрузить не может. Она не мощнее. У неё просто больше места, куда поместить модель.

Это первое, что заголовки указывают верно, но не объясняют. Именно размер пула, а не грубая мощность, определяет, запустится ли модель вообще.

Почему унифицированная память медленнее видеокарты?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Генерация текста по одному токену ограничена памятью пропускная способность, а не скоростью вычислений процессора. Каждый созданный токен требует прогонять активные веса модели через процессор, так что потолок скорости определяется тем, насколько быстро память способна подавать данные в чип. Это хорошо задокументированная «зависимая от памяти» природа однопотокового декодирования, чип большую часть времени ждёт данные из памяти, а не выполняет вычисления.

И именно по пропускной способности унифицированная память сдаёт позиции. Пул Strix Halo от AMD на бумаге работает на 256 ГБ/с, а независимое тестирование на llm-tracker.info фиксирует около 212 ГБ/с на практике. DGX Spark держится на уровне 273 ГБ/с. Топовая дискретная видеокарта, напротив, передаёт данные в несколько раз быстрее, её выделенная VRAM создана именно для этого. Поэтому, когда модель помещается сразу по обоим и в унифицированную коробку, и на дискретную карту, дискретная карта заметно быстрее генерирует токены. Одна и та же модель, одинаковый результат, совершенно разная скорость.

Для плотных моделей полезное эмпирическое правило звучит так:

токенов в секунду ≈ пропускная способность памяти ÷ размер модели в памяти.

Это ориентировочная оценка, а не бенчмарк, но она объясняет компромисс: меньшие резидентные веса или более высокая пропускная способность обычно означают более быстрое декодирование. Для моделей MoE не применяйте это правило напрямую к общему числу параметров. Ёмкость по-прежнему зависит от общего объёма хранимых весов, но скорость на токен больше зависит от активированного пути, накладных расходов маршрутизации, поведения кэша и реализации.

Ещё один нюанс, и на этом остановимся: у запроса есть две фазы. Чтение вашего запроса (prefill) опирается на вычисления. Генерация ответа (decode) опирается на пропускную способность. Медленная часть, которую вы ощущаете, слова, появляющиеся по одному, это как раз часть, ограниченная пропускной способностью.

Так что вот вывод, который спецификация не сообщает: унифицированная память позволяет запустить большую модель, но не запустить её быстро. Она выигрывает спор об объёме и проигрывает спор о пропускной способности. Стоит ли этот компромисс того, полностью зависит от того, чем вы занимаетесь, и это вполне честный компромисс, который можно сделать осознанно, а не сюрприз, который обнаруживается уже после покупки.

Вся ли унифицированная память одинакова?

Нет. «Унифицированная» описывает категорию, а не единственную реализацию, и версии отличаются существенно. Версия Apple почти незаметна пользователю: память объединена по умолчанию. Strix Halo от AMD требует больше вмешательства: настройки прошивки и драйверов могут влиять на то, сколько памяти зарезервировано для GPU или фактически доступно ему. Обе версии - унифицированная память. Но это не одинаковый опыт.

Назову заблуждение, которое порождает эта тема чаще всего, потому что оно самое распространённое: больше памяти не значит быстрее инференс. Это значит, что более крупная может работать более крупная модель. Кто-то покупает коробку на 128 ГБ, ожидая скорости, загружает модель, которая также помещается на дискретной карте с 24 ГБ, и разочаровывается, что она работает медленнее, чем на маленькой карте. Оба утверждения верны одновременно: большой пул вмещает больше, а маленькая быстрая карта работает быстрее на том, что доступно обеим. Размер и скорость - разные оси. Унифицированная память покупает вам первую.

Практическая нестыковка на стороне AMD: сколько из пула фактически доступно для модели, зависит от настройки прошивки и операционной системы. FAQ AMD по Variable Graphics Memory объясняет, как работает это распределение; если коротко, коробка на 128 ГБ не отдаёт все 128 ГБ GPU целиком, а доступный объём зависит от настройки VGM, зарезервированной системной памяти, ОС и среды выполнения. Планируйте, исходя из доступной памяти, а не из числа на коробке.

Совет: подбирая машину для локальных моделей, читайте спецификацию как два числа, а не одно. Ёмкость подсказывает, какие модели поместятся. Пропускная способность подсказывает, насколько быстро они будут работать после загрузки. Машина с огромным пулом и скромной пропускной способностью, это машина, которая медленно запускает большие модели, что вполне может быть именно тем, что вам нужно, если вы знали об этом заранее.

Стоит отметить ещё один случай, который часто сбивает людей с толку на машинах с большим пулом: модели Mixture-of-Experts. Модель вроде Qwen3-235B-A22B имеет в общей сложности 235 миллиардов параметров, но активирует лишь около 22 миллиардов из них на токен. Заманчиво предположить, что это значит, будто памяти нужно только на активную часть. Для обычного инференса в памяти это не так. Все 235 миллиардов весов всё равно должны находиться где-то, доступном среде выполнения, потому что любой токен может быть направлен к любому эксперту: снижаются только вычисления на токен, но не требования к ёмкости. Именно в этом различии большой пул унифицированной памяти и проявляет себя, и смежная статья о математике квантования подробно разбирает, во что выливаются эти цифры.

Часто задаваемые вопросы

Является ли унифицированная память тем же самым, что VRAM?

Нет. VRAM - это выделенная, высокоскоростная память, встроенная в дискретную видеокарту и отделённая от системной RAM. Унифицированная память - это единый общий пул, который используют и CPU, и GPU, выполняя роль и VRAM, и системной RAM одновременно. Унифицированная память обычно больше, но медленнее, чем VRAM дискретной карты, и она пропускает этап копирования данных между двумя пулами.

Почему моя локальная модель работает медленно, даже если помещается в память?

Потому что поместиться в память и работать быстро - это две разные вещи. Загрузится ли модель, зависит от ёмкости памяти; насколько быстро она генерирует текст, зависит от пропускной способности памяти. У унифицированной памяти достаточно ёмкости, но гораздо более низкая пропускная способность, чем у дискретной видеокарты, поэтому модель, которая комфортно помещается, всё равно может медленно генерировать токены. Для плотных моделей приблизительное соотношение: токенов в секунду ≈ пропускная способность ÷ размер модели. Для моделей MoE ёмкость по-прежнему зависит от общего объёма хранимых весов, но скорость больше зависит от активированного пути и реализации среды выполнения.

Нужен ли вам ещё GPU, если у вас есть унифицированная память?

Встроенный GPU уже является частью чипа с унифицированной памятью, именно он и запускает модель. Реальный вопрос в том, нужен ли вам ещё и дискретный GPU. Многие дискретные карты дают гораздо более высокую пропускную способность, а значит более быструю генерацию, но меньше локальной памяти, чем крупная система с унифицированной памятью, поэтому они могут не вместить самые большие модели самостоятельно. Унифицированная память даёт вам большой пул, вмещающий крупные модели при более низкой скорости. Что вам нужно, зависит от соотношения размера модели и скорости.

Почему мини-ПК способен запускать модель, для которой нужен GPU из дата-центра?

Потому что узким местом при загрузке модели является ёмкость памяти, а мини-ПК с крупным унифицированным пулом может обладать большей доступной для модели памятью, чем многие конфигурации с одним GPU. У потребительского GPU может быть от 24 до 32 ГБ VRAM, а у одного дата-центрового GPU класса H100, от 80 до 94 ГБ, тогда как некоторые системы с унифицированной памятью заявляют общие пулы по 128 ГБ. Все веса модели должны поместиться где-то, куда может обратиться процессор; большой общий пул вмещает их, а маленькая быстрая VRAM нет. Мини-ПК не мощнее. У него просто больше места.

Поместиться, вот в чём победа: сколько нужно, следующий вопрос

Вклад унифицированной памяти сводится к одному чёткому факту: большой, общий, адресуемый пул, который позволяет маленькой машине вместить модели, для которых раньше требовался сервер. В этом победа по ёмкости. Подвох с пропускной способностью, это цена, и теперь вы можете читать спецификацию, зная, какая цифра управляет каким поведением.

Естественный следующий вопрос, который эта статья постоянно откладывала: сколько памяти на самом деле требуется конкретной модели? Это арифметика: параметры, байты на вес, выбранный уровень сжатия и «налог» контекста, скрытый размером файла. смежная статья о квантовании GGUF, GPTQ, AWQ и EXL2 разбирает именно эту математику, и это стоит сделать до того, как вы подбираете машину или выбираете модель.

Что такое унифицированная память и почему она позволяет мини-ПК запускать модель на 235 миллиардов параметров?