Кластер міні-ПК AMD на трильйон параметрів: що оминає специфікація

Рік тому запуск мовної моделі на трильйон параметрів означав цілу серверну. Стійки, охолодження, рахунок за електрику, який потребував окремої наради. Потім AMD опублікувала розбір для розробників, де чотири міні-ПК стояли на столі (з тих, що можна нести по два за раз) і виконували ту саму роботу. Чотири однакові коробочки, з'єднані кабелями, запускають модель із більшою кількістю параметрів, ніж зірок, які можна побачити з вулиці в місті.

Заголовок пишеться сам собою: «Жодної хмари. Жодного дата-центру.» І це правда. AMD справді запустила модель на 1,04 трильйона параметрів на чотирьох системах Framework Desktop зі споживчим кремнієм усередині.

Але є частина, яку заголовок оминув, і саме вона вирішує, віха це чи фокус. Є архітектурна деталь, яка робить «трильйон параметрів» технічно чесним твердженням, є підступ, що визначає, чи зможете ви реально цим користуватися, і є причина, чому це важить більше, ніж приписують йому і хайп, і критика.

Коротко

Модель — це Kimi K2.5, і вона має архітектуру Mixture-of-Experts: 1,04 трильйона параметрів загалом, але лише близько 32 мільярдів із них спрацьовують на будь-якому окремому токені. «Модель на трильйон параметрів» — це точно; але обчислення на токен ближчі до навантаження класу 32B.
Кластер генерує приблизно від 8 до 9,5 токенів за секунду, з часом до першого токена від 39,7 до 239,1 секунди залежно від того, наскільки довгий ваш промпт. Нормально для пакетної роботи. Жорстоко для інтерактивного циклу написання коду.
Змінилася не швидкість. А те, що уніфікована пам'ять винесла інференс фронтирного масштабу на залізо, яке можна купити й поставити на полицю — у категорію, яка раніше починалася з «май власний дата-центр».

Що AMD насправді зробила

Конфігурація майже розчаровує, щойно ви бачите її розкладеною. Чотири машини Framework Desktop , кожна з Ryzen AI Max+ 395 і 128 ГБ уніфікованої пам'яті LPDDR5X. У BIOS кожен вузол може виділити до 96 ГБ як виділену VRAM, або 384 ГБ на всі чотири вузли; далі покроковий гайд AMD для Linux використовує налаштування TTM/ядра, щоб підняти це до 120 ГБ на вузол, або 480 ГБ загалом. Це важливо, бо збірка Kimi K2.5 UD_Q2_K_XL GGUF, яку використала AMD, заявлена на 375 ГБ, а не 240 ГБ.

Клеєм є llama.cpp, що працює в режимі RPC: один керуючий вузол і три RPC-сервери, з моделлю, розподіленою на всі чотири машини. AMD вказує інтерконект як 5 Gbps Ethernet, що відповідає вбудованому порту 5Gbit Ethernet у Framework Desktop. Це і весь рейтинг. Жодних екзотичних інтерконектів, жодних кастомних плат, нічого, чого не можна було б замовити вже сьогодні по обіді.

Цікаве слово в усьому цьому — уніфікована. На звичайному ПК оперативна пам'ять вашого CPU і VRAM вашого GPU — це окремі пули, і модель, завелика для VRAM, або вивалюється у повільну системну пам'ять, або взагалі не запускається. Уніфікована пам'ять руйнує цю стіну: GPU може звертатися до всього банку пам'яті, і саме це є цілковитою причиною того, що настільний ПК на 4,5 літра взагалі може вмістити шматок моделі такого розміру.

Власний технічний розбір від AMD детально висвітлює конфігурацію. Чого він насправді не висвітлює — так це чому «трильйон параметрів» виконує більше риторичної роботи, ніж здається.

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

Підступ: чому «трильйон параметрів» — правда, але не вся правда

Ось на що спирається специфікація, не пояснюючи цього: Kimi K2.5 — це модель Mixture-of-Experts, і це змінює те, що «трильйон параметрів» означає на практиці.

Щільна (dense) модель — та, яку уявляє більшість людей — задіює кожен параметр для кожного токена. Щільна модель на 70 мільярдів параметрів виконує математику на 70 мільярдів параметрів для кожного слова, яке вона видає. Модель Mixture-of-Experts побудована інакше. Kimi K2.5 має 384 окремих «експерти», 8 з яких активуються на токен плюс один спільний експерт, через 61 шар. Тож хоч модель і несе 1,04 трильйона параметрів загалом, лише близько 32 мільярдів із них загоряються на будь-якому окремому прямому проході. Маршрутизатор обирає, які експерти розбудити; решта сидять без діла для цього токена.

То чи чесно говорити «запуск моделі на трильйон параметрів на чотирьох міні-ПК»? Так, вам справді потрібна пам'ять, щоб вмістити всі 1,04 трильйона параметрів, і саме ця пам'ять — найскладніша частина. Але обчислення, які має виконати ваше залізо на токен, — це робота класу 32B, а не 1T.

Що ріже в обидва боки, і ось де стає цікаво. Це робить демонстрацію більш вражаючою, ніж звучить, бо утримання повної моделі на трильйон параметрів у пам'яті на споживчих коробках — це по-справжньому складна річ, яку вони провернули. І це робить її менш вражаючою, ніж натякає заголовок, бо фактичне навантаження на токен — це щось, що окремі коробки вже перемелюють швидше на менших MoE-моделях. MoE-модель на 120B працює зі швидкістю понад 50 токенів за секунду на одному з цих вузлів. Число «трильйон параметрів» реальне, але це понти пам'яттю, а не обчисленнями.

Висновок: коли ви підбираєте залізо під модель, кількість активних параметрів — це те, що ваша машина має годувати на токен, а не загальна кількість на коробці.

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

Підступ: що насправді означають 8 токенів за секунду й очікування від 40 секунд до 4 хвилин

Вісім токенів за секунду — це число, що вирішує все, тож посидьте з ним секунду. Стаття AMD повідомляє, що кластер генерує близько 8,30 т/с на контексті 8 192 токени й приблизно 9,45 т/с у стійкому стані, з обробкою промпта близько 100,77 т/с. Це нормальні, справедливі числа для того, чим вони є.

Те, що болить, — це час до першого токена. Перш ніж модель видасть бодай одне слово, вона має прочитати ваш промпт, і власна таблиця бенчмарків AMD ставить це очікування на 39,7 секунди для промпта в 4 096 токенів, 90,5 секунди для промпта в 8 192 токени і 239,1 секунди для промпта в 16 384 токени з увімкненою Flash Attention. Тож ви набираєте запитання, а потім чекаєте. Можливо, майже чотири хвилини, перш ніж щось повернеться.

Для інтерактивного циклу написання коду це жорстко, і розробники в обговоренні на Hacker News сказали це прямо: понад хвилина мертвої тиші перед першим токеном не вписується в те, як хтось пише код з асистентом. Але переверніть навантаження. Якщо ви запускаєте пакетні завдання вночі, обробляєте документи асинхронно, генеруєте те, що прочитаєте пізніше, або робите приватний інференс, де весь сенс у тому, що нічого не покидає будівлю, 8 токенів за секунду — цілком стерпно. Ви все одно не дивилися на екран.

Зірочка: Не очікуйте, що ці числа відтворяться «з коробки». Програмний стек ROCm на цьому залізі чутливий до версій так, що це кусає: issue на GitHub задокументував систему Strix Halo, що застрягла на холостих частотах GPU і ледь повзла на 0,5 т/с під час LLM-інференсу на ROCm 7.1.1 і ядрі Linux 6.14. Це не «AMD зламана», але це таки означає, що опублікована продуктивність залежить від дуже конкретного програмного стеку, і ви можете врешті ганятися за комбінаціями ROCm, ядра й прошивки, перш ніж ваш рейтинг збіжиться з числами в розборі.

Ще одне, в чому критика помиляється, — це вартість. Люди постійно називають це «кластером за $10 000», але ніхто не публікує це як фіксований перелік матеріалів. Порахуйте арифметику самі: чотири Framework Desktop на 128 ГБ за стартовою ціною $1 999 поставили б самі машини приблизно на $8 000, тоді як знімок Liliputing за березень 2026 вказував конфігурацію Framework Desktop 128GB/1TB за $2 851, або близько $11 400 за чотири до мережевого обладнання. Додайте кількасот доларів за світч і кабелі, і практичний діапазон ближчий приблизно до $8,2K–$11,7K залежно від конфігурації, дати покупки й того, що у вас уже є. Не дрібниця. Але й не серверна кімната.

Ось до чого я схиляюся щодо всього цього: кластер працює. Чи вісім токенів за секунду й очікування понад хвилину — це тріумф чи іграшка, повністю залежить від того, що ви намагаєтеся збудувати. Це не інтерактивна робоча станція для написання коду. Це й не іграшка. Це справжня машина для конкретного виду терплячої роботи, і вдавання, ніби вона більша або менша за це, — це те, як усі в цій суперечці врешті говорять повз одне одного.

До чого це насправді приводить

Чесне формулювання — не «AMD перемогла Nvidia». А те, що це інший продукт для іншої людини. Читач, якому це потрібно, — це той, хто потребує приватності, хоче офлайн або не хоче платити за токен вічно, а не той, хто женеться за найшвидшою можливою відповіддю.

І найсильніший аргумент проти всієї цієї затії заслуговує на прямий відповідь: ви можете просто звернутися до API Kimi. Artificial Analysis наразі вказує власний ендпоінт K2.5 від Kimi близько 56–60 токенів за секунду зі змішаною ціною близько $0,49 за мільйон токенів, тоді як офіційна API-платформа Kimi вказує ціни на K2.5: $0,10/M за вхідні токени з кеш-попаданням, $0,60/M за вхідні токени і $3,00/M за вихідні токени. Сторонні провайдери K2.5 можуть бути швидшими або дешевшими залежно від маршрутизації, але базова суть та сама: API швидший за кластер, уникає няньчення заліза й буде правильним вибором для більшості людей у більшість днів.

Тож локальний сценарій має сенс лише тоді, коли вірне одне з трьох: дані не можуть покинути периметр (приватність), наявність з'єднання не можна припускати (офлайн), або обсяг токенів достатньо великий і сталий, щоб володіти залізом було вигідніше, ніж орендувати його вічно (вартість на масштабі). Поза цими трьома API виграє. Усередині них кластер — єдине, що взагалі виконує роботу.

Вимір	4-вузловий кластер AMD	API Kimi / хмарний маршрут
Швидкість генерації	~8–9,5 т/с	~56–60 т/с на власному ендпоінті K2.5 від Kimi
Час до першого токена	39,7–239,1 с	залежить від провайдера, значно нижчий
Модель вартості	~$8,2K–$11,7K за залізо	потокенна ціна API
Приватність / офлайн	повністю локально	хоститься провайдером
Найкращий сценарій використання	приватна, офлайн, пакетна робота	інтерактивне використання / API

Для протоколу: Nvidia DGX Spark — це очевидне «а як щодо» тут, і вона виграє за деякими осями, за якими кластер AMD ні. Це окрема, ціла суперечка, і я візьмуся за неї деінде. Якщо вам потрібен орендний бік рішення «залізо проти хмари», сторінка GPU VPS від Cloudzy — більш практична точка для порівняння.

Частина, яка насправді важить

Зніміть із розгляду швидкість токенів і аргументи про ціну, і залишається один факт: залізо, що запускає модель на трильйон параметрів, тепер — це полиця, а не будівля.

Це і є зсув, і його легко проґавити за чварами про швидкість. Рік тому категорія людей, які могли запустити модель на 1,04 трильйона параметрів, була «оператори дата-центрів». Крапка. Тепер до неї входить будь-хто з приблизно десятьма тисячами й дещицею терпіння. Межа зрушилася не трохи: ціла нова група людей щойно пройшла крізь двері, які були замкнені.

Що це відкриває — ось цікава частина. Приватні агенти, що працюють цілком на залізі, яким ви володієте. Інференс, що працює в літаку або за повітряним зазором. Моделі, що фізично не можуть «подзвонити додому», бо нема куди дзвонити. Економіка ШІ, де гранична вартість токена — це електрика, а не лічильник API-лінії. Нічого з цього не було досяжним на споживчому залізі рік тому, і саме уніфікована пам'ять — те, що цього досягло.

Я бачив цей патерн достатньо разів, щоб остерігатися фрази «це все змінює». Зазвичай не змінює; зазвичай це торішня річ із новим логотипом. Ця — інша, і не тому, що швидка. Вона інша, бо зрушилася підлога. Повільна, дорога, терпляча версія локального інференсу фронтирного масштабу тепер існує, а швидка версія — це лише питання того, як наступні кілька поколінь заліза її перемелють. Складною частиною ніколи не мала бути швидкість. Складною частиною був доступ, і доступ щойно стався.

Віха тут — не швидкість. А те, кого пускають у кімнату. Машина, що запускає моделі фронтирного масштабу, раніше була будівлею. Тепер це чотири коробки на полиці.

Часті запитання

Чи справді можна запустити модель на трильйон параметрів на кластері з міні-ПК?

Так, з однією важливою засторогою. AMD запустила Kimi K2.5, модель на 1,04 трильйона параметрів, на чотирьох міні-ПК Ryzen AI Max+ 395. У BIOS чотири системи можуть виділити загалом близько 384 ГБ виділеної VRAM; далі покроковий гайд AMD для Linux піднімає виділення до 480 ГБ загалом через налаштування TTM/ядра. Але Kimi K2.5 — це модель Mixture-of-Experts: із тих 1,04 трильйона параметрів лише близько 32 мільярдів активуються на будь-якому окремому токені. Вам потрібна пам'ять, щоб вмістити їх усі, але обчислення на токен ближчі до навантаження на 32 мільярди параметрів.

Що таке Kimi K2.5 і чому архітектура MoE тут важлива?

Kimi K2.5 — це мовна модель із відкритими вагами від Moonshot AI з 1,04 трильйона параметрів загалом і 32 мільярдами активних на прямий прохід, побудована на архітектурі Mixture-of-Experts (384 експерти, 8 активуються на токен плюс один спільний). Архітектура важлива, бо саме кількість активних параметрів, а не загальна, — це те, що ваше залізо має обчислити для кожного токена. Ось чому модель із трильйоном параметрів на папері взагалі може працювати на споживчих коробках.

Чи достатньо швидко 8 токенів за секунду для локального ШІ?

Це повністю залежить від навантаження. Для пакетної обробки, асинхронних завдань, офлайн-використання або приватного інференсу, де нічого не може покинути ваше залізо, 8 токенів за секунду — нормально, ви ж не витріщаєтеся в екран. Для інтерактивного написання коду це жорстко, переважно тому, що час до першого токена на цьому кластері тягнеться приблизно від 40 секунд до майже 4 хвилин залежно від довжини промпта, і ця мертва тиша перед першим словом убиває ітеративний цикл.

Чому б просто не скористатися API Kimi?

Для більшості людей — варто. Власний ендпоінт K2.5 від Kimi набагато швидший за локальний кластер у поточних даних Artificial Analysis, а сторонні провайдери K2.5 можуть бути ще швидшими або дешевшими. Локальне залізо має сенс лише тоді, коли вам потрібна приватність (дані не можуть покинути периметр), офлайн-можливість (з'єднання не можна припускати) або вартість на масштабі (сталий високий обсяг, де володіти вигідніше, ніж орендувати). Поза цими випадками API — кращий вибір.

AMD зібрала ШІ-суперкомп'ютер на трильйон параметрів із міні-ПК