Кластер мини-ПК AMD на триллион параметров: что пропускает спецификация

Год назад запуск языковой модели с триллионом параметров означал серверную комнату. Стойки, охлаждение, счёт за электричество, под который нужно отдельное совещание. А потом AMD опубликовала разбор для разработчиков, показав четыре мини-ПК, стоящие на столе (из тех, что можно унести по два за раз) и выполняющие ту же работу. Четыре одинаковые маленькие коробки, соединённые кабелями, запускают модель с большим числом параметров, чем звёзд, которые видно с городской улицы.

Заголовок пишется сам собой: «Без облака. Без дата-центра». И это правда. AMD действительно запустила модель на 1,04 триллиона параметров на четырёх системах Framework Desktop с потребительским кремнием внутри.

Но есть часть, которую заголовок пропустил, и именно она решает, веха это или ловкий фокус. Есть архитектурная деталь, делающая «триллион параметров» технически честным, есть подвох, определяющий, можно ли вообще этим пользоваться, и есть причина, по которой это важнее, чем готовы признать и хайп, и хейт.

Кратко

Модель — это Kimi K2.5, и она построена по схеме Mixture-of-Experts: 1,04 триллиона параметров всего, но на любом отдельном токене срабатывает лишь около 32 миллиардов из них. «Модель на триллион параметров» — точная формулировка; а вот вычисления на токен ближе к нагрузке класса 32B.
Кластер выдаёт около 8–9,5 токенов в секунду, при времени до первого токена от 39,7 до 239,1 секунды в зависимости от длины вашего запроса. Нормально для пакетной работы. Убийственно для интерактивного цикла написания кода.
Изменилась не скорость. Изменилось то, что унифицированная память вывела инференс фронтирного масштаба на железо, которое можно купить и поставить на полку — категорию, которая раньше начиналась со слов «владей дата-центром».

Что именно сделала AMD

Конструкция почти разочаровывает своей простотой, как только её увидишь. Четыре Framework Desktop машины, в каждой — Ryzen AI Max+ 395 и 128 ГБ унифицированной памяти LPDDR5X. В BIOS каждый узел может выделить до 96 ГБ под VRAM, или 384 ГБ на четыре узла; затем гайд AMD для Linux использует настройки TTM/ядра, чтобы поднять это до 120 ГБ на узел, или 480 ГБ всего. Это важно, потому что сборка Kimi K2.5 UD_Q2_K_XL GGUF, которую использовала AMD, заявлена как 375 ГБ, а не 240 ГБ.

Связующим звеном выступает llama.cpp, работающий в режиме RPC: один управляющий узел и три RPC-сервера, модель распределена по всем четырём машинам. AMD указывает интерконнект как 5 Gbps Ethernet, что соответствует встроенному порту 5Gbit Ethernet у Framework Desktop. Вот и вся сборка. Никакого экзотического интерконнекта, никаких кастомных плат, ничего, что нельзя было бы заказать сегодня днём.

Интересное слово во всём этом — унифицированная. В обычном ПК оперативная память CPU и VRAM видеокарты — это раздельные пулы, и модель, слишком большая для VRAM, либо сваливается в медленную системную память, либо не запускается вовсе. Унифицированная память сносит эту стену: GPU может адресовать весь банк, и это и есть единственная причина, по которой десктоп объёмом 4,5 литра вообще способен удержать кусок модели такого размера.

Собственный технический разбор AMD подробно описывает конфигурацию. Чего он по сути не раскрывает — так это почему «триллион параметров» выполняет больше риторической работы, чем кажется.

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

Фокус: почему «триллион параметров» — правда, но не вся правда

Вот на что спецификация опирается, не объясняя этого: Kimi K2.5 — это модель Mixture-of-Experts, и это меняет то, что «триллион параметров» означает на практике.

Плотная модель, та самая, которую представляет большинство, прогоняет каждый параметр на каждый токен. Плотная модель на 70 миллиардов параметров выполняет вычислений на 70 миллиардов параметров на каждое слово, которое производит. Модель Mixture-of-Experts устроена иначе. У Kimi K2.5 есть 384 отдельных «эксперта», 8 из которых активируются на токен плюс один общий эксперт, на протяжении 61 слоя. Так что хотя модель несёт в себе 1,04 триллиона параметров в сумме, лишь около 32 миллиардов из них загораются при любом отдельном прямом проходе. Маршрутизатор выбирает, каких экспертов разбудить; остальные сидят без дела для этого токена.

Так честно ли «запустить модель на триллион параметров на четырёх мини-ПК»? Да — вам действительно нужна память, чтобы удержать все 1,04 триллиона параметров, и именно эта память — самая сложная часть. Но вычисления, которые ваше железо должно выполнить на токен, — это работа класса 32B, а не 1T.

И это работает в обе стороны — вот тут и становится интересно. Это делает демо более впечатляющим, чем звучит, потому что удержать полную модель на триллион параметров в памяти на потребительских коробках — это по-настоящему сложная вещь, которую они провернули. И это делает его менее впечатляющим, чем подразумевает заголовок, потому что фактическую нагрузку на токен отдельные коробки уже прожёвывают быстрее на меньших MoE-моделях. MoE-модель на 120B работает со скоростью 50+ токенов в секунду на одном из таких узлов. Цифра в триллион параметров реальна, но это флекс по памяти, а не по вычислениям.

Вывод: когда вы подбираете железо под модель, число активных параметров — это то, что ваша машина должна подавать на токен, а не общее число на борту.

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

Подвох: что на самом деле означают 8 токенов в секунду и ожидание от 40 секунд до 4 минут

Восемь токенов в секунду — это та цифра, что решает всё, поэтому посидите с ней секунду. Статья AMD сообщает, что кластер генерирует около 8,30 t/s при контексте в 8 192 токена и примерно 9,45 t/s в установившемся режиме, при обработке запроса около 100,77 t/s. Это нормальные, честные цифры для того, чем они являются.

Та, что бьёт больно, — это время до первого токена. Прежде чем модель выдаст хоть одно слово, ей нужно прочитать ваш запрос, и собственная таблица бенчмарков AMD ставит это ожидание на 39,7 секунды для запроса в 4 096 токенов, 90,5 секунды для запроса в 8 192 токена и 239,1 секунды для запроса в 16 384 токена при включённом Flash Attention. То есть вы вводите вопрос — и ждёте. Возможно, почти четыре минуты, прежде чем что-либо вернётся.

Для интерактивного цикла написания кода это тяжело, и разработчики в обсуждении на Hacker News сказали об этом прямо: минута с лишним мёртвой тишины до первого токена не вписывается в то, как кто-либо пишет код с ассистентом. Но переверните сценарий. Если вы гоняете пакетные задачи на ночь, обрабатываете документы асинхронно, генерируете то, что прочтёте позже, или ведёте приватный инференс, где весь смысл в том, чтобы ничего не покидало здание, 8 токенов в секунду — вполне приемлемо. Вы всё равно не смотрели на экран.

Сноска со звёздочкой: Не ждите, что эти цифры воспроизведутся из коробки. Программный стек ROCm на этом железе чувствителен к версиям так, что это кусается: issue на GitHub задокументировал систему Strix Halo, застрявшую на холостых частотах GPU и едва ползущую на 0,5 t/s при LLM-инференсе на ROCm 7.1.1 и ядре Linux 6.14. Это не «AMD сломана», но это значит, что опубликованная производительность зависит от очень конкретного программного стека, и вам, возможно, придётся погоняться за сочетаниями ROCm, ядра и прошивки, прежде чем ваша сборка совпадёт с цифрами из разбора.

Ещё одна вещь, которую хейт понимает неправильно, — это стоимость. Люди продолжают называть это «кластером за $10 000», но никто не публикует это как фиксированную смету. Посчитайте сами: четыре Framework Desktop по 128 ГБ по стартовой цене $1 999 поставят одни только машины примерно в $8 000, тогда как снимок Liliputing за март 2026 указывал конфигурацию Framework Desktop 128GB/1TB по цене $2 851, или около $11 400 за четыре без учёта сети. Добавьте пару сотен долларов на коммутатор и кабели, и практический диапазон — ближе к примерно $8,2K–$11,7K в зависимости от конфигурации, даты покупки и того, что у вас уже есть. Не пустяк. Но и не серверная комната.

Вот к чему я прихожу по всему этому: кластер работает. Триумф восемь токенов в секунду и ожидание в минуту с лишним или игрушка — целиком зависит от того, что вы пытаетесь построить. Это не интерактивная рабочая станция для кодинга. Но и не игрушка. Это настоящая машина для конкретного рода терпеливой работы, и притворяться, что это нечто большее или меньшее, — именно так все в этом споре в итоге говорят мимо друг друга.

Где это на самом деле приземляется

Честная формулировка — не «AMD обошла Nvidia». А в том, что это другой продукт для другого человека. Читатель, которому это нужно, — тот, кому требуется приватность, кто хочет работать офлайн или не желает платить за токены вечно, а не тот, кто гонится за максимально быстрым ответом.

И самый сильный аргумент против всей этой затеи заслуживает прямого ответа: можно просто обратиться к API Kimi. Artificial Analysis сейчас указывает собственный эндпоинт K2.5 от Kimi примерно на 56–60 токенов в секунду при смешанной цене около $0.49 за миллион токенов, тогда как официальная API-платформа Kimi указывает цены на K2.5 в $0.10/M за токены ввода при попадании в кэш, $0.60/M за токены ввода и $3.00/M за токены вывода. Сторонние провайдеры K2.5 могут быть быстрее или дешевле в зависимости от маршрутизации, но базовая мысль та же: API быстрее кластера, избавляет от нянченья железа и будет правильным выбором для большинства людей в большинстве дней.

Так что локальная история обретает смысл, только когда верно одно из трёх: данные не могут уходить (приватность), на соединение нельзя рассчитывать (офлайн), либо объём токенов достаточно высок и устойчив, чтобы владеть железом было выгоднее, чем вечно его арендовать (стоимость в масштабе). Вне этих трёх случаев побеждает API. Внутри них кластер — единственное, что вообще справляется с задачей.

Параметр	Кластер AMD из 4 узлов	API Kimi / облачный путь
Скорость генерации	~8–9,5 t/s	~56–60 t/s на собственном эндпоинте K2.5 от Kimi
Время до первого токена	39,7–239,1 с	зависит от провайдера, гораздо ниже
Модель стоимости	~$8,2K–$11,7K на железо	потокенная оплата API
Приватность / офлайн	полностью локально	размещено у провайдера
Наиболее подходящий сценарий	приватная, офлайновая, пакетная работа	интерактивное использование / API

Для протокола: Nvidia DGX Spark — очевидное «а как же» здесь, и она выигрывает по некоторым осям, по которым кластер AMD — нет. Это целая отдельная схватка, и за неё я возьмусь в другом месте. Если вам нужна арендная сторона выбора между железом и облаком, страница GPU VPS от Cloudzy — более практичная точка сравнения.

Часть, которая действительно важна

Снимите скорость токенов и споры о цене, и останется стоять один факт: железо, на котором работает модель с триллионом параметров, теперь — полка, а не здание.

Вот это и есть сдвиг, и его легко упустить за перепалкой о скорости. Год назад категория людей, способных запустить модель на 1,04 триллиона параметров, была «операторы дата-центров». И точка. Теперь в неё входит любой, у кого есть примерно десять тысяч долларов и немного терпения. Граница сдвинулась не чуть-чуть: целая новая группа людей только что прошла через дверь, которая была заперта.

Что это открывает — и есть самое интересное. Приватные агенты, работающие целиком на железе, которым вы владеете. Инференс, работающий в самолёте или за воздушным зазором. Модели, которые физически не могут «позвонить домой», потому что звонить попросту некуда. Экономика ИИ, где предельная стоимость токена — это электричество, а не учётный счётчик API. Ничто из этого не было достижимо на потребительском железе год назад, и унифицированная память — то, что до этого дотянулось.

Я видел этот паттерн достаточно раз, чтобы относиться с осторожностью к «это всё меняет». Обычно это не так; обычно это прошлогодняя вещь с новым логотипом. Эта — другая, и не потому что быстрая. Она другая, потому что сдвинулся пол. Медленная, дорогая, терпеливая версия локального инференса фронтирного масштаба теперь существует, а быстрая версия — это лишь вопрос того, как её сточат следующие несколько поколений железа. Сложной частью никогда не была скорость. Сложной частью был доступ, и доступ только что случился.

Веха здесь — не скорость. А то, кому позволено войти в комнату. Машина, на которой работают модели фронтирного масштаба, раньше была зданием. Теперь это четыре коробки на полке.

Часто задаваемые вопросы

Можно ли действительно запустить модель на триллион параметров на кластере мини-ПК?

Да, с одной важной оговоркой. AMD запустила Kimi K2.5, модель на 1,04 триллиона параметров, на четырёх мини-ПК Ryzen AI Max+ 395. В BIOS четыре системы могут выделить в сумме около 384 ГБ под VRAM; затем гайд AMD для Linux поднимает выделение до 480 ГБ всего через настройки TTM/ядра. Но Kimi K2.5 — это модель Mixture-of-Experts: из тех 1,04 триллиона параметров активируется лишь около 32 миллиардов на любом отдельном токене. Память нужна, чтобы удержать их все, но вычисления на токен ближе к нагрузке в 32 миллиарда параметров.

Что такое Kimi K2.5 и почему архитектура MoE важна здесь?

Kimi K2.5 — это языковая модель с открытыми весами от Moonshot AI с 1,04 триллиона параметров всего и 32 миллиардами активных на прямой проход, построенная по схеме Mixture-of-Experts (384 эксперта, 8 активируется на токен плюс один общий). Архитектура важна, потому что именно число активных параметров, а не общее, ваше железо должно вычислять на каждый токен. Вот почему модель с триллионом параметров на бумаге вообще может работать на потребительских коробках.

Достаточно ли 8 токенов в секунду для локального ИИ?

Это целиком зависит от сценария. Для пакетной обработки, асинхронных задач, офлайн-использования или приватного инференса, где ничего не должно покидать ваше железо, 8 токенов в секунду — нормально, вы же не пялитесь в экран. Для интерактивного кодинга это тяжело, в основном потому что время до первого токена на этом кластере составляет от примерно 40 секунд до почти 4 минут в зависимости от длины запроса, и эта мёртвая тишина до первого слова убивает итеративный цикл.

Почему просто не использовать API Kimi?

Большинству людей — стоит. Собственный эндпоинт K2.5 от Kimi гораздо быстрее локального кластера по текущим данным Artificial Analysis, а сторонние провайдеры K2.5 могут быть ещё быстрее или дешевле. Локальное железо имеет смысл, только когда вам нужна приватность (данные не могут уходить), офлайн-возможность (на соединение нельзя рассчитывать) или стоимость в масштабе (устойчивый высокий объём, где владеть выгоднее, чем арендовать). Вне этих случаев API — лучший выбор.

AMD собрала ИИ-суперкомпьютер на триллион параметров из мини-ПК