Що таке уніфікована пам'ять? Чому міні-ПК запускає AI-модель на 235B

Міні-ПК з уніфікованою пам'яттю за приблизно 2000-3000 доларів здатний завантажити деякі сильно квантизовані моделі класу 235B, які не вміщаються на єдину GPU класу H100.

Це звучить навпаки, тож уточнимо порівняння. Дорога карта набагато швидша, але її локальна пам'ять GPU менша. Маленька коробка на столі може мати більший спільний пул, тож модель завантажиться, навіть якщо генерація повільна.

Однослівна відповідь на питання як звучить так: «уніфікована пам'ять». Вона зазначена в специфікаціях багатьох нових AI міні-ПК і Mac як головна цифра («128 ГБ уніфікованої пам'яті»), і майже ніхто не пояснює, що вона насправді робить. Саме це і є завданням цього тексту. Наприкінці ви знатимете, що таке уніфікована пам'ять, чому завдяки їй маленька машина запустити запускати модель, яка раніше вимагала серверної стійки, і в чому підступ, який ніхто не пише в заголовку: вона запускає цю модель повільно.

TL;DR

Уніфікована пам'ять - це один фізичний пул пам'яті, який спільно використовують CPU чипа та вбудована GPU, замість малої, окремої VRAM дискретної відеокарти, що лежить окремо від вашої системної RAM.
Цей спільний пул великий, і GPU зазвичай має доступ до набагато більшого обсягу пам'яті, ніж фіксований ліміт VRAM дискретної карти, хоча точний доступний обсяг залежить від платформи, налаштувань прошивки, ОС та середовища виконання. Тож перше питання: чи вміститься ця квантизована збірка в доступну пам'ять? Пул на 128 ГБ вмістить моделі, які відеокарта на 24 ГБ або 32 ГБ ніколи б не вмістила.
Підступ у швидкості, а не в розмірі. Уніфікована пам'ять передає дані набагато повільніше, ніж VRAM дискретної карти. Велика модель запускається. Просто вона повільно генерує токени. Уніфікована пам'ять дозволяє запустити велику модель, а не запустити її швидко.
«Уніфікована» - це не одне явище. Версія Apple здебільшого невидима для користувача; версія AMD відкриває більше налаштувань, оскільки прошивка та драйвери можуть впливати на те, скільки пам'яті зарезервовано для GPU або практично доступно їй. І більше пам'яті не означає швидше.

Що таке уніфікована пам'ять?

Уявіть два варіанти. Дискретна відеокарта має власну пам'ять (VRAM), прикріплену прямо біля свого процесора, швидку, але малу. Ваша системна RAM - це другий, окремий пул, який використовує CPU. Щоб запустити модель на GPU, дані спершу потрібно скопіювати із системної RAM через шину PCIe у VRAM. Два пули, один крок копіювання.

Уніфікована пам'ять усуває цей поділ. Це єдиний фізичний пул пам'яті, який спільно використовують CPU чипа та вбудована GPU, завдяки чому GPU працює зі спільного пулу замість покладатися на малу окрему VRAM. На таких платформах, як Apple Silicon, це також усуває старий крок копіювання через PCIe. Власна доповідь Apple про архітектуру описує це як CPU і GPU, що «працюють над тією самою пам'яттю» без потреби копіювати дані через шину PCIe. Один пул. Нуль копіювання.

Спільний пул зазвичай складається з пам'яті LPDDR5X, припаяної безпосередньо до корпусу чипа, що дозволяє їй бути одночасно великою і близькою до процесора. Головними прикладами зараз є Mac на Apple Silicon, системи AMD Strix Halo, побудовані навколо чипів на кшталт Ryzen AI Max+ 395, і Nvidia DGX Spark. Платформа для розробників AMD Ryzen AI Halo вказує 128 ГБ пам'яті LPDDR5x зі швидкістю 256 ГБ/с, тоді як Nvidia DGX Spark вказує 128 ГБ уніфікованої системної пам'яті LPDDR5x зі швидкістю 273 ГБ/с.

Спільна пам'ять між CPU та вбудованою GPU не є новинкою. Ноутбуки роблять це роками, і зазвичай це був компроміс: повільна пам'ять, і небагато її. Змінилася саме ємність при прийнятній пропускній здатності. Коли спільний пул став достатньо великим, приблизно класу 128 ГБ, і залишався достатньо швидким, щоб мати сенс, він перетнув межу, за якою дуже великі моделі з відкритими вагами могли вміщатися локально. Ось і вся історія. Архітектура стара; розмір новий.

Примітка щодо «проти VRAM»: люди запитують, чи є уніфікована пам'ять тим самим, що VRAM. Не зовсім. VRAM - це виділена графічна пам'ять на дискретній карті, швидка й окрема. Уніфікована пам'ять - це один спільний пул, що виконує роль і VRAM, і системної RAM одночасно. Вона обмінює чисту швидкість дискретної карти на розмір і можливість пропустити крок копіювання.

Чому модель має вміщатися в пам'яті?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Для звичайного інференсу в пам'яті ваги моделі мають перебувати в пам'яті, доступній процесору за адресою. Якщо доступної пам'яті замало, модель не завантажиться коректно на цьому пристрої. Деякі інструменти можуть вивантажувати частини моделі в пам'ять CPU або на диск, але це різко змінює профіль продуктивності і не те саме, що модель, яка комфортно вміщується в пам'ять, адресовану GPU. Ємність - це жорсткий бар'єр, що передує будь-якому питанню про швидкість.

Це і є важіль, за який тягне уніфікована пам'ять. Багато споживчих відеокарт мають 24 ГБ VRAM або менше, а навіть топові одиничні споживчі карти сидять на рівні близько 32 ГБ. Модель на 70 чи 235 мільярдів параметрів для цього надто велика. Груба 4-бітна арифметика для 235B параметрів починається приблизно з 118 ГБ, ще до накладних витрат формату, буферів середовища виконання та пам'яті контексту. На практиці реально завантажувані збірки сильно різняться: наприклад, збірка Ollama Qwen3-235B-A22B Q4_K_M вказана як 142 ГБ, тоді як агресивніші квантизації з меншою бітністю можуть наблизитися до діапазону, який здатна впоратися машина зі 128 ГБ уніфікованої пам'яті. Тож карта, створена саме для цього завдання, вичерпує місце ще до того, як зможе почати. (Як обчислюються ці цифри пам'яті - параметри помножені на байти на вагу плюс накладні витрати, які приховує розмір файлу - це окрема тема, і супутня стаття про математику квантизації виконує ці розрахунки.)

Пул уніфікованої пам'яті на 128 ГБ змінює відповідь на одне питання: чи вміститься саме ця квантизована збірка після того, як ОС, середовище виконання, KV-кеш і ліміти виділення GPU заберуть свою частку? Для деяких агресивних квантизацій класу 235B - так. Ось чому компактна коробка з уніфікованою пам'яттю іноді може завантажити модель, яку GPU з меншою VRAM не може. Вона не потужніша. У неї просто більше місця, куди покласти модель.

Це перше, що заголовки подають правильно, але не пояснюють. Саме розмір пулу, а не чиста потужність, вирішує, чи модель взагалі запуститься.

Чому уніфікована пам'ять повільніша за відеокарту?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Генерація тексту по одному токену обмежена пам'яттю пропускна спроможність, а не тим, наскільки швидко процесор може виконувати обчислення. Кожен згенерований токен вимагає прогону активних ваг моделі через процесор, тож стелю швидкості визначає те, наскільки швидко пам'ять здатна живити чип. Це добре задокументована «обмежена пам'яттю» природа однопотокового декодування, чип більшість часу проводить у очікуванні на пам'ять, а не в обчисленнях.

І саме пропускна здатність - те місце, де уніфікована пам'ять здає позиції. Пул AMD Strix Halo на папері працює на швидкості 256 ГБ/с, а незалежне тестування на llm-tracker.info фіксує на практиці приблизно 212 ГБ/с. DGX Spark сидить на рівні 273 ГБ/с. Топова дискретна відеокарта, натомість, передає дані в кілька разів швидше, її виділена VRAM створена саме для цього. Тож коли модель вміщується обидва і в уніфіковану коробку, і в дискретну карту, дискретна карта генерує токени помітно швидше. Та сама модель, той самий результат, дуже різна швидкість.

Для щільних моделей корисне емпіричне правило:

токенів за секунду ≈ пропускна здатність пам'яті ÷ розмір моделі в пам'яті.

Це орієнтир, а не бенчмарк, але він пояснює компроміс: менші резидентні ваги або вища пропускна здатність зазвичай означають швидше декодування. Для моделей MoE не застосовуйте це правило безпосередньо до загальної кількості параметрів. Ємність усе ще залежить від загальних збережених ваг, але швидкість на токен більше залежить від активованого шляху, накладних витрат маршрутизації, поведінки кешу та реалізації.

Ще одна тонкість, і на цьому все: у запиту дві фази. Читання вашого промпту (prefill) спирається на обчислення. Генерація відповіді (декодування) спирається на пропускну здатність. Та повільна частина, яку ви відчуваєте, слова, що з'являються по одному, - це саме частина, обмежена пропускною здатністю.

Ось висновок, який пропускає специфікація: уніфікована пам'ять дозволяє запустити велику модель, а не запустити її швидко. Вона виграє аргумент ємності і програє аргумент пропускної здатності. Чи вартий цей обмін залежить цілком від того, чим ви займаєтесь, і це чесний вибір, зроблений свідомо, а не сюрприз, виявлений після покупки.

Чи вся уніфікована пам'ять однакова?

Ні. «Уніфікована» описує категорію, а не одну реалізацію, і версії відрізняються способами, які мають значення. Версія Apple здебільшого невидима для користувача: пам'ять спільна за замовчуванням. AMD Strix Halo вимагає більшої участі: налаштування прошивки та драйверів можуть впливати на те, скільки пам'яті зарезервовано для GPU або практично доступно їй. Обидва варіанти - уніфікована пам'ять. Але це не однаковий досвід.

Дозвольте назвати хибне уявлення, яке породжує ця тема, бо воно найпоширеніше: більше пам'яті не означає швидший інференс. Це означає, що запуститься більша модель. Хтось купує коробку на 128 ГБ, очікуючи швидкості, завантажує модель, яка також влазить на карту з 24 ГБ, і розчарований, що вона працює повільніше, ніж на меншій карті. Обидва твердження правдиві одночасно: великий пул вміщує більше, а маленька швидка карта працює швидше на тому, що вони мають спільного. Розмір і швидкість - різні осі. Уніфікована пам'ять дає вам першу.

Практичний нюанс з боку AMD: скільки з пулу насправді доступно для моделі, залежить від налаштувань прошивки та операційної системи. FAQ AMD щодо Variable Graphics Memory пояснює, як працює цей розподіл; коротко кажучи, коробка на 128 ГБ не віддає всі 128 ГБ GPU, і доступний обсяг залежить від налаштування VGM, зарезервованої системної пам'яті, ОС та середовища виконання. Плануйте, виходячи з доступної пам'яті, а не з цифри на етикетці.

Порада: коли підбираєте машину для локальних моделей, читайте специфікацію як два числа, а не одне. Ємність каже, які моделі вміститься. Пропускна здатність каже, наскільки швидко вони працюватимуть, коли вміститься. Коробка з величезним пулом і скромною пропускною здатністю - це коробка, яка повільно запускає великі моделі, що може бути саме тим, чого ви хочете, якщо ви знали про це заздалегідь.

Варто відзначити ще один випадок, бо саме на ньому люди спотикаються на цих машинах з великим пулом: моделі Mixture-of-Experts. Модель на кшталт Qwen3-235B-A22B має загалом 235 мільярдів параметрів, але активує лише близько 22 мільярдів з них на токен. Спокуса припустити, що це означає потребу в пам'яті лише для активної частини. Для звичайного інференсу в пам'яті це не так. Усі 235 мільярдів ваг усе одно мають бути резидентними десь, де середовище виконання може їх використати, бо будь-який токен може маршрутизуватися до будь-якого експерта: скорочуються лише обчислення на токен, а не вимога до ємності. Саме в цій відмінності великий пул уніфікованої пам'яті виправдовує себе, і супутня стаття про математику квантизації розкладає, до чого ці цифри насправді зводяться.

Часті запитання

Чи є уніфікована пам'ять тим самим, що VRAM?

Ні. VRAM - це виділена, швидкісна пам'ять, вбудована в дискретну відеокарту, окрема від вашої системної RAM. Уніфікована пам'ять - це один спільний пул, який використовують і CPU, і GPU, виконуючи роль VRAM і системної RAM одночасно. Уніфікована пам'ять зазвичай більша, але повільніша за VRAM дискретної карти, і вона пропускає крок копіювання даних між двома пулами.

Чому моя локальна модель повільна, навіть якщо вона вміщується в пам'ять?

Тому що вміститися і працювати швидко - це дві різні речі. Чи завантажиться модель, залежить від ємності пам'яті; наскільки швидко вона генерує текст, залежить від пропускної здатності пам'яті. Уніфікована пам'ять має достатньо ємності, але набагато нижчу пропускну здатність, ніж дискретна відеокарта, тож модель, яка комфортно вміщується, все одно може повільно генерувати токени. Для щільних моделей приблизне співвідношення: токенів за секунду ≈ пропускна здатність ÷ розмір моделі. Для моделей MoE ємність усе ще залежить від загальних збережених ваг, але швидкість більше залежить від активованого шляху та реалізації середовища виконання.

Чи потрібна вам GPU, якщо у вас є уніфікована пам'ять?

Вбудована GPU вже є частиною чипа з уніфікованою пам'яттю, саме вона запускає модель. Справжнє питання - чи хочете ви також дискретну GPU. Багато дискретних карт дають набагато вищу пропускну здатність, тобто швидшу генерацію, але менше локальної пам'яті, ніж велика система з уніфікованою пам'яттю, тож самі по собі вони можуть не вмістити найбільші моделі. Уніфікована пам'ять дає вам великий пул, у який вміщуються великі моделі при нижчій швидкості. Що вам потрібно, залежить від того, розмір моделі чи швидкість важливіші.

Чому міні-ПК може запускати модель, яка потребує GPU дата-центру?

Тому що вузьким місцем для завантаження моделі є ємність пам'яті, а міні-ПК з великим уніфікованим пулом може мати більше доступної пам'яті для моделі, ніж багато конфігурацій з однією GPU. Споживча GPU може мати 24-32 ГБ VRAM, а одна GPU дата-центру класу H100 має 80-94 ГБ, тоді як деякі системи з уніфікованою пам'яттю рекламують спільні пули на 128 ГБ. Ваги моделі мають вміститися десь, куди процесор може дотягнутися; великий спільний пул їх вміщує, мала швидка VRAM - ні. Міні-ПК не потужніший. У нього просто більше місця.

Вміститися - це вже перемога: скільки для цього потрібно - наступне питання

Внесок уніфікованої пам'яті - одна чиста річ: великий, спільний, адресований пул, який дозволяє маленькій машині вмістити моделі, які раніше вимагали сервера. Це перемога в ємності. Підступ з пропускною здатністю - ціна за це, і тепер ви вмієте читати специфікацію, знаючи, яке число керує якою поведінкою.

Природне наступне питання - те, яке ця стаття постійно відкладала: скільки пам'яті насправді потрібно даній моделі? Це арифметика: параметри, байти на вагу, обраний вами рівень стиснення та податок на контекст, який приховує розмір файлу. супутня стаття про квантизацію GGUF, GPTQ, AWQ і EXL2 розкладає саме цю математику, і варто це зробити, перш ніж підбирати машину чи обирати модель.

Що таке уніфікована пам'ять і чому завдяки їй міні-ПК може запускати модель на 235B?