Рік тому запуск мовної моделі на трильйон параметрів означав цілу серверну. Стійки, охолодження, рахунок за електрику, який потребував окремої наради. Потім AMD опублікувала розбір для розробників, де чотири міні-ПК стояли на столі (з тих, що можна нести по два за раз) і виконували ту саму роботу. Чотири однакові коробочки, з'єднані кабелями, запускають модель із більшою кількістю параметрів, ніж зірок, які можна побачити з вулиці в місті.
Заголовок пишеться сам собою: «Жодної хмари. Жодного дата-центру.» І це правда. AMD справді запустила модель на 1,04 трильйона параметрів на чотирьох системах Framework Desktop зі споживчим кремнієм усередині.
Але є частина, яку заголовок оминув, і саме вона вирішує, віха це чи фокус. Є архітектурна деталь, яка робить «трильйон параметрів» технічно чесним твердженням, є підступ, що визначає, чи зможете ви реально цим користуватися, і є причина, чому це важить більше, ніж приписують йому і хайп, і критика.
Коротко
- Модель — це Kimi K2.5, і вона має архітектуру Mixture-of-Experts: 1,04 трильйона параметрів загалом, але лише близько 32 мільярдів із них спрацьовують на будь-якому окремому токені. «Модель на трильйон параметрів» — це точно; але обчислення на токен ближчі до навантаження класу 32B.
- Кластер генерує приблизно від 8 до 9,5 токенів за секунду, з часом до першого токена від 39,7 до 239,1 секунди залежно від того, наскільки довгий ваш промпт. Нормально для пакетної роботи. Жорстоко для інтерактивного циклу написання коду.
- Змінилася не швидкість. А те, що уніфікована пам'ять винесла інференс фронтирного масштабу на залізо, яке можна купити й поставити на полицю — у категорію, яка раніше починалася з «май власний дата-центр».
Що AMD насправді зробила
Конфігурація майже розчаровує, щойно ви бачите її розкладеною. Чотири машини Framework Desktop , кожна з Ryzen AI Max+ 395 і 128 ГБ уніфікованої пам'яті LPDDR5X. У BIOS кожен вузол може виділити до 96 ГБ як виділену VRAM, або 384 ГБ на всі чотири вузли; далі покроковий гайд AMD для Linux використовує налаштування TTM/ядра, щоб підняти це до 120 ГБ на вузол, або 480 ГБ загалом. Це важливо, бо збірка Kimi K2.5 UD_Q2_K_XL GGUF, яку використала AMD, заявлена на 375 ГБ, а не 240 ГБ.
Клеєм є llama.cpp, що працює в режимі RPC: один керуючий вузол і три RPC-сервери, з моделлю, розподіленою на всі чотири машини. AMD вказує інтерконект як 5 Gbps Ethernet, що відповідає вбудованому порту 5Gbit Ethernet у Framework Desktop. Це і весь рейтинг. Жодних екзотичних інтерконектів, жодних кастомних плат, нічого, чого не можна було б замовити вже сьогодні по обіді.
Цікаве слово в усьому цьому — уніфікована. На звичайному ПК оперативна пам'ять вашого CPU і VRAM вашого GPU — це окремі пули, і модель, завелика для VRAM, або вивалюється у повільну системну пам'ять, або взагалі не запускається. Уніфікована пам'ять руйнує цю стіну: GPU може звертатися до всього банку пам'яті, і саме це є цілковитою причиною того, що настільний ПК на 4,5 літра взагалі може вмістити шматок моделі такого розміру.
Власний технічний розбір від AMD детально висвітлює конфігурацію. Чого він насправді не висвітлює — так це чому «трильйон параметрів» виконує більше риторичної роботи, ніж здається.
Підступ: чому «трильйон параметрів» — правда, але не вся правда
Ось на що спирається специфікація, не пояснюючи цього: Kimi K2.5 — це модель Mixture-of-Experts, і це змінює те, що «трильйон параметрів» означає на практиці.
Щільна (dense) модель — та, яку уявляє більшість людей — задіює кожен параметр для кожного токена. Щільна модель на 70 мільярдів параметрів виконує математику на 70 мільярдів параметрів для кожного слова, яке вона видає. Модель Mixture-of-Experts побудована інакше. Kimi K2.5 має 384 окремих «експерти», 8 з яких активуються на токен плюс один спільний експерт, через 61 шар. Тож хоч модель і несе 1,04 трильйона параметрів загалом, лише близько 32 мільярдів із них загоряються на будь-якому окремому прямому проході. Маршрутизатор обирає, які експерти розбудити; решта сидять без діла для цього токена.
То чи чесно говорити «запуск моделі на трильйон параметрів на чотирьох міні-ПК»? Так, вам справді потрібна пам'ять, щоб вмістити всі 1,04 трильйона параметрів, і саме ця пам'ять — найскладніша частина. Але обчислення, які має виконати ваше залізо на токен, — це робота класу 32B, а не 1T.
Що ріже в обидва боки, і ось де стає цікаво. Це робить демонстрацію більш вражаючою, ніж звучить, бо утримання повної моделі на трильйон параметрів у пам'яті на споживчих коробках — це по-справжньому складна річ, яку вони провернули. І це робить її менш вражаючою, ніж натякає заголовок, бо фактичне навантаження на токен — це щось, що окремі коробки вже перемелюють швидше на менших MoE-моделях. MoE-модель на 120B працює зі швидкістю понад 50 токенів за секунду на одному з цих вузлів. Число «трильйон параметрів» реальне, але це понти пам'яттю, а не обчисленнями.
Висновок: коли ви підбираєте залізо під модель, кількість активних параметрів — це те, що ваша машина має годувати на токен, а не загальна кількість на коробці.
Підступ: що насправді означають 8 токенів за секунду й очікування від 40 секунд до 4 хвилин
Вісім токенів за секунду — це число, що вирішує все, тож посидьте з ним секунду. Стаття AMD повідомляє, що кластер генерує близько 8,30 т/с на контексті 8 192 токени й приблизно 9,45 т/с у стійкому стані, з обробкою промпта близько 100,77 т/с. Це нормальні, справедливі числа для того, чим вони є.
Те, що болить, — це час до першого токена. Перш ніж модель видасть бодай одне слово, вона має прочитати ваш промпт, і власна таблиця бенчмарків AMD ставить це очікування на 39,7 секунди для промпта в 4 096 токенів, 90,5 секунди для промпта в 8 192 токени і 239,1 секунди для промпта в 16 384 токени з увімкненою Flash Attention. Тож ви набираєте запитання, а потім чекаєте. Можливо, майже чотири хвилини, перш ніж щось повернеться.
Для інтерактивного циклу написання коду це жорстко, і розробники в обговоренні на Hacker News сказали це прямо: понад хвилина мертвої тиші перед першим токеном не вписується в те, як хтось пише код з асистентом. Але переверніть навантаження. Якщо ви запускаєте пакетні завдання вночі, обробляєте документи асинхронно, генеруєте те, що прочитаєте пізніше, або робите приватний інференс, де весь сенс у тому, що нічого не покидає будівлю, 8 токенів за секунду — цілком стерпно. Ви все одно не дивилися на екран.
Зірочка: Не очікуйте, що ці числа відтворяться «з коробки». Програмний стек ROCm на цьому залізі чутливий до версій так, що це кусає: issue на GitHub задокументував систему Strix Halo, що застрягла на холостих частотах GPU і ледь повзла на 0,5 т/с під час LLM-інференсу на ROCm 7.1.1 і ядрі Linux 6.14. Це не «AMD зламана», але це таки означає, що опублікована продуктивність залежить від дуже конкретного програмного стеку, і ви можете врешті ганятися за комбінаціями ROCm, ядра й прошивки, перш ніж ваш рейтинг збіжиться з числами в розборі.
Ще одне, в чому критика помиляється, — це вартість. Люди постійно називають це «кластером за $10 000», але ніхто не публікує це як фіксований перелік матеріалів. Порахуйте арифметику самі: чотири Framework Desktop на 128 ГБ за стартовою ціною $1 999 поставили б самі машини приблизно на $8 000, тоді як знімок Liliputing за березень 2026 вказував конфігурацію Framework Desktop 128GB/1TB за $2 851, або близько $11 400 за чотири до мережевого обладнання. Додайте кількасот доларів за світч і кабелі, і практичний діапазон ближчий приблизно до $8,2K–$11,7K залежно від конфігурації, дати покупки й того, що у вас уже є. Не дрібниця. Але й не серверна кімната.
Ось до чого я схиляюся щодо всього цього: кластер працює. Чи вісім токенів за секунду й очікування понад хвилину — це тріумф чи іграшка, повністю залежить від того, що ви намагаєтеся збудувати. Це не інтерактивна робоча станція для написання коду. Це й не іграшка. Це справжня машина для конкретного виду терплячої роботи, і вдавання, ніби вона більша або менша за це, — це те, як усі в цій суперечці врешті говорять повз одне одного.
До чого це насправді приводить
Чесне формулювання — не «AMD перемогла Nvidia». А те, що це інший продукт для іншої людини. Читач, якому це потрібно, — це той, хто потребує приватності, хоче офлайн або не хоче платити за токен вічно, а не той, хто женеться за найшвидшою можливою відповіддю.
І найсильніший аргумент проти всієї цієї затії заслуговує на прямий відповідь: ви можете просто звернутися до API Kimi. Artificial Analysis наразі вказує власний ендпоінт K2.5 від Kimi близько 56–60 токенів за секунду зі змішаною ціною близько $0,49 за мільйон токенів, тоді як офіційна API-платформа Kimi вказує ціни на K2.5: $0,10/M за вхідні токени з кеш-попаданням, $0,60/M за вхідні токени і $3,00/M за вихідні токени. Сторонні провайдери K2.5 можуть бути швидшими або дешевшими залежно від маршрутизації, але базова суть та сама: API швидший за кластер, уникає няньчення заліза й буде правильним вибором для більшості людей у більшість днів.
Тож локальний сценарій має сенс лише тоді, коли вірне одне з трьох: дані не можуть покинути периметр (приватність), наявність з'єднання не можна припускати (офлайн), або обсяг токенів достатньо великий і сталий, щоб володіти залізом було вигідніше, ніж орендувати його вічно (вартість на масштабі). Поза цими трьома API виграє. Усередині них кластер — єдине, що взагалі виконує роботу.
| Вимір | 4-вузловий кластер AMD | API Kimi / хмарний маршрут |
|---|---|---|
| Швидкість генерації | ~8–9,5 т/с | ~56–60 т/с на власному ендпоінті K2.5 від Kimi |
| Час до першого токена | 39,7–239,1 с | залежить від провайдера, значно нижчий |
| Модель вартості | ~$8,2K–$11,7K за залізо | потокенна ціна API |
| Приватність / офлайн | повністю локально | хоститься провайдером |
| Найкращий сценарій використання | приватна, офлайн, пакетна робота | інтерактивне використання / API |
Для протоколу: Nvidia DGX Spark — це очевидне «а як щодо» тут, і вона виграє за деякими осями, за якими кластер AMD ні. Це окрема, ціла суперечка, і я візьмуся за неї деінде. Якщо вам потрібен орендний бік рішення «залізо проти хмари», сторінка GPU VPS від Cloudzy — більш практична точка для порівняння.
Частина, яка насправді важить
Зніміть із розгляду швидкість токенів і аргументи про ціну, і залишається один факт: залізо, що запускає модель на трильйон параметрів, тепер — це полиця, а не будівля.
Це і є зсув, і його легко проґавити за чварами про швидкість. Рік тому категорія людей, які могли запустити модель на 1,04 трильйона параметрів, була «оператори дата-центрів». Крапка. Тепер до неї входить будь-хто з приблизно десятьма тисячами й дещицею терпіння. Межа зрушилася не трохи: ціла нова група людей щойно пройшла крізь двері, які були замкнені.
Що це відкриває — ось цікава частина. Приватні агенти, що працюють цілком на залізі, яким ви володієте. Інференс, що працює в літаку або за повітряним зазором. Моделі, що фізично не можуть «подзвонити додому», бо нема куди дзвонити. Економіка ШІ, де гранична вартість токена — це електрика, а не лічильник API-лінії. Нічого з цього не було досяжним на споживчому залізі рік тому, і саме уніфікована пам'ять — те, що цього досягло.
Я бачив цей патерн достатньо разів, щоб остерігатися фрази «це все змінює». Зазвичай не змінює; зазвичай це торішня річ із новим логотипом. Ця — інша, і не тому, що швидка. Вона інша, бо зрушилася підлога. Повільна, дорога, терпляча версія локального інференсу фронтирного масштабу тепер існує, а швидка версія — це лише питання того, як наступні кілька поколінь заліза її перемелють. Складною частиною ніколи не мала бути швидкість. Складною частиною був доступ, і доступ щойно стався.
Віха тут — не швидкість. А те, кого пускають у кімнату. Машина, що запускає моделі фронтирного масштабу, раніше була будівлею. Тепер це чотири коробки на полиці.
Часті запитання
Чи справді можна запустити модель на трильйон параметрів на кластері з міні-ПК?
Так, з однією важливою засторогою. AMD запустила Kimi K2.5, модель на 1,04 трильйона параметрів, на чотирьох міні-ПК Ryzen AI Max+ 395. У BIOS чотири системи можуть виділити загалом близько 384 ГБ виділеної VRAM; далі покроковий гайд AMD для Linux піднімає виділення до 480 ГБ загалом через налаштування TTM/ядра. Але Kimi K2.5 — це модель Mixture-of-Experts: із тих 1,04 трильйона параметрів лише близько 32 мільярдів активуються на будь-якому окремому токені. Вам потрібна пам'ять, щоб вмістити їх усі, але обчислення на токен ближчі до навантаження на 32 мільярди параметрів.
Що таке Kimi K2.5 і чому архітектура MoE тут важлива?
Kimi K2.5 — це мовна модель із відкритими вагами від Moonshot AI з 1,04 трильйона параметрів загалом і 32 мільярдами активних на прямий прохід, побудована на архітектурі Mixture-of-Experts (384 експерти, 8 активуються на токен плюс один спільний). Архітектура важлива, бо саме кількість активних параметрів, а не загальна, — це те, що ваше залізо має обчислити для кожного токена. Ось чому модель із трильйоном параметрів на папері взагалі може працювати на споживчих коробках.
Чи достатньо швидко 8 токенів за секунду для локального ШІ?
Це повністю залежить від навантаження. Для пакетної обробки, асинхронних завдань, офлайн-використання або приватного інференсу, де нічого не може покинути ваше залізо, 8 токенів за секунду — нормально, ви ж не витріщаєтеся в екран. Для інтерактивного написання коду це жорстко, переважно тому, що час до першого токена на цьому кластері тягнеться приблизно від 40 секунд до майже 4 хвилин залежно від довжини промпта, і ця мертва тиша перед першим словом убиває ітеративний цикл.
Чому б просто не скористатися API Kimi?
Для більшості людей — варто. Власний ендпоінт K2.5 від Kimi набагато швидший за локальний кластер у поточних даних Artificial Analysis, а сторонні провайдери K2.5 можуть бути ще швидшими або дешевшими. Локальне залізо має сенс лише тоді, коли вам потрібна приватність (дані не можуть покинути периметр), офлайн-можливість (з'єднання не можна припускати) або вартість на масштабі (сталий високий обсяг, де володіти вигідніше, ніж орендувати). Поза цими випадками API — кращий вибір.