1年前なら、1兆パラメータの言語モデルを動かすにはサーバールームが必要だった。ラック、冷却設備、それ自体で会議が必要になるほどの電気代。ところがAMDが公開した開発者向けの記事は、机の上に並んだ4台のミニPC(一度に2台運べる程度のサイズ)が同じ仕事をこなす様子を見せた。同じ小さな箱が4つ、ケーブルでつながれ、街路から見える星の数より多いパラメータを持つモデルを動かしている。
見出しはひとりでに書ける。「クラウドなし。データセンターなし」。そしてそれは本当だ。AMDは実際に、1.04兆パラメータのモデルを4台の Framework Desktopシステム コンシューマー向けシリコンを内蔵したもので動かしたのだ。
だが見出しが飛ばした部分があり、それこそがこれを節目とするか手品とするかを決める部分だ。「1兆パラメータ」を技術的に正直なものにするアーキテクチャ上の詳細、これを実際に使えるかどうかを左右する落とし穴、そして誇大宣伝にも反発にも見合わないほどこれが重要である理由が存在する。
短いバージョン
- そのモデルはKimi K2.5で、Mixture-of-Experts設計だ。総パラメータは1.04兆だが、任意のトークンで発火するのはそのうち約320億だけ。「1兆パラメータのモデル」は正確だが、トークンあたりの計算量は32Bクラスのワークロードに近い。
- このクラスタは毎秒およそ8〜9.5トークンを生成し、最初のトークンまでの時間はプロンプトの長さに応じて39.7秒から239.1秒のどこかになる。バッチ処理には問題ない。対話的なコーディングループには過酷だ。
- 変わったのは速度ではない。ユニファイドメモリが、最先端規模の推論を、買って棚に置けるハードウェア上に載せたことだ。かつては「データセンターを所有する」から始まっていたカテゴリだ。
AMDが実際にやったこと
そのセットアップは、並べて見てしまえば拍子抜けするほどだ。4台の Framework Desktop マシンで、それぞれにRyzen AI Max+ 395と128 GBのLPDDR5Xユニファイドメモリを搭載している。BIOSでは各ノードが最大96 GBを専用VRAMとして公開でき、4ノード合計で384 GBになる。さらにAMDのLinux手順ではTTM/カーネル設定を使ってこれをノードあたり120 GB、合計480 GBまで引き上げる。これが重要なのは、AMDが使ったKimi K2.5のUD_Q2_K_XL GGUFビルドが240 GBではなく375 GBと記載されているからだ。
接着剤の役割を果たすのは、次のモードで動くllama.cppだ RPCモード。コントローラーノード1台とRPCサーバー3台で、モデルは4台すべてのマシンに分散される。AMDはインターコネクトを5 Gbps Ethernetと記載しており、これはFramework Desktopに内蔵された5Gbit Ethernetポートに合致する。これがリグの全容だ。風変わりなインターコネクトもなければ、カスタムボードもなく、今日の午後に注文できないものは何もない。
その中で興味深い言葉は ユニファイドだ。通常のPCでは、CPUのRAMとGPUのVRAMは別々のプールであり、VRAMに収まりきらないモデルは遅いシステムメモリにあふれるか、まったく動かない。ユニファイドメモリはその壁を取り払う。GPUがバンク全体をアドレッシングできるのだ。これこそ、4.5リットルのデスクトップがこれほどのサイズのモデルの一部を保持できる、そもそもの理由だ。
AMD自身の 技術解説記事 は、その構成を詳しく扱っている。あまり扱っていないのは、なぜ「1兆パラメータ」が見た目以上に多くのレトリック上の役割を果たしているのか、という点だ。
トリック:「1兆パラメータ」が本当でありながら真実のすべてではない理由
スペックシートが説明せずに寄りかかっている点はこうだ。Kimi K2.5はMixture-of-Expertsモデルであり、それが実際の「1兆パラメータ」の意味を変える。
ほとんどの人が思い浮かべる種類の密なモデルは、すべてのトークンに対してすべてのパラメータを動かす。700億パラメータの密なモデルは、生成する単語ごとに700億パラメータ分の計算をする。Mixture-of-Expertsモデルは作りが違う。Kimi K2.5には384個の独立した「エキスパート」があり、トークンごとにそのうち8個に加えて1個の共有エキスパートが起動する。これが 61層にわたる。つまりモデルは総計1.04兆パラメータを抱えながら、任意の1回のフォワードパスで点灯するのはそのうち約320億だけだ。ルーターがどのエキスパートを起こすかを選び、残りはそのトークンの間、何もせずそこに座っている。
では「4台のミニPCで1兆パラメータのモデルを動かす」は正直か。そうだ。1.04兆パラメータすべてを保持するメモリは本当に必要で、そのメモリこそが難所だ。だがハードウェアがトークンあたりにこなさなければならない計算は、1Tクラスではなく32Bクラスの仕事だ。
これは両方に効いてくる。そしてここが面白いところだ。これはこのデモを聞こえる以上に より 印象的にする。コンシューマー向けの箱の上に1兆パラメータのモデルをまるごとメモリに保持することが、彼らが成し遂げた本当に難しいことだからだ。そして同時に、これを見出しが暗示するほどには それほど 印象的でなくする。実際のトークンあたりのワークロードは、より小さなMoEモデルなら単体の箱がすでにもっと速く噛み砕いているものだからだ。120BのMoEモデルは毎秒50トークン超で動く。 これらのノードの1台でだ。1兆パラメータという数字は本物だが、それは計算力の誇示ではなくメモリの誇示だ。
要点はこうだ。 モデル向けのハードウェアを見積もるとき、マシンがトークンあたりに供給しなければならないのは箱に載った総パラメータ数ではなく、アクティブなパラメータ数だ。
落とし穴:毎秒8トークンと40秒から4分の待ち時間が実際に意味すること
毎秒8トークンこそがすべてを決める数字なので、少しじっくり向き合ってほしい。AMDの記事は、このクラスタが8,192トークンのコンテキストで約8.30 t/s、定常状態でおよそ9.45 t/sを生成し、プロンプト処理は約100.77 t/sだと報告している。それ自体として見れば、妥当でまずまずの数字だ。
痛いのは最初のトークンまでの時間だ。モデルが単語を1つ生成する前に、まずプロンプトを読まなければならない。そしてAMD自身のベンチマーク表は、その待ち時間を4,096トークンのプロンプトで39.7秒、8,192トークンのプロンプトで90.5秒、Flash Attentionを有効にした16,384トークンのプロンプトで239.1秒としている。つまり質問を打ち込んで、そして待つ。何かが返ってくるまでに、ことによると4分近くも。
対話的なコーディングループにとって、これは厳しい。そして Hacker Newsの議論 に集まった開発者たちは率直にそう言った。最初のトークンの前に1分超の無音があるのは、誰かがアシスタントを使ってコードを書くやり方に合わない。だがワークロードをひっくり返してみよう。夜通しバッチジョブを回す、ドキュメントを非同期で処理する、後で読むものを生成する、あるいは何も建物の外に出さないことが眼目のプライベート推論をするなら、毎秒8トークンはまったく許容できる。どのみち画面を見てなどいなかったのだから。
注釈: これらの数字が箱から出してそのまま再現できると期待してはいけない。このハードウェア上のROCmソフトウェアスタックは、噛みついてくるほどバージョンに敏感だ。 あるGitHubのissueが記録している のは、Strix HaloシステムがアイドルのGPUクロックで止まり、ROCm 7.1.1とLinuxカーネル6.14のLLM推論で0.5 t/sまで這い回っていた事例だ。これは「AMDが壊れている」という話ではないが、公開された性能が非常に特定のソフトウェアスタックに依存していること、そしてリグが解説記事の数字に追いつく前に、ROCm、カーネル、ファームウェアの組み合わせを追いかける羽目になりかねないことを意味する。
反発がもう1つ間違えているのがコストだ。人々はこれを「1万ドルのクラスタ」と呼び続けるが、誰もそれを固定の部品表として公表してはいない。自分で計算してみよう。128 GBのFramework Desktopを4台、発売価格の$1,999で揃えると、マシンだけで約$8,000になる。一方、 2026年3月のLiliputingのスナップショット は、128GB/1TBのFramework Desktop構成を$2,851と記載しており、ネットワーク機器を除いて4台でおよそ$11,400になる。スイッチとケーブルに数百ドルを足すと、現実的なレンジは構成、購入日、すでに持っているものによっておよそ$8.2Kから$11.7Kに近づく。無ではない。だがサーバールームでもない。
この件について私が落ち着くところはこうだ。クラスタは動く。毎秒8トークンと1分超の待ち時間が偉業なのかおもちゃなのかは、あなたが何を作ろうとしているかに完全に依存する。これは対話的なコーディング用ワークステーションではない。同時におもちゃでもない。これは特定の種類の、辛抱強い仕事のための本物のマシンであり、それを実態以上にも以下にも見せかけることこそ、この論争の全員が互いにすれ違って話す原因だ。
これが実際に落ち着くところ
正直な枠組みは「AMDがNvidiaに勝った」ではない。これは別の人のための別の製品だ、というのが正直なところだ。これを欲しがる読者は、プライバシーが必要な人、オフラインを望む人、あるいは永遠にトークン課金を払いたくない人であって、可能な限り速い応答を追い求める人ではない。
そしてこの試み全体に対する最も強い反論は、まっすぐな答えに値する。Kimiのapiを叩けばいいじゃないか、というものだ。Artificial Analysisは現在、 Kimi自身のK2.5エンドポイント を毎秒およそ56〜60トークン、混合価格で100万トークンあたり約$0.49と記載しており、一方で Kimiの公式APIプラットフォーム はK2.5の価格を、キャッシュヒットの入力トークン$0.10/M、入力トークン$0.60/M、出力トークン$3.00/Mと記載している。サードパーティのK2.5プロバイダーはルーティング次第でより速かったりより安かったりするが、基本的な論点は同じだ。APIはクラスタより速く、ハードウェアの子守りを避けられ、ほとんどの人がほとんどの日に選ぶべき正解になる。
つまりローカルという物語が意味を持つのは、次の3つのうちどれか1つが真であるときだけだ。データが外に出せない(プライバシー)、接続が前提にできない(オフライン)、あるいはトークン量が十分に多く十分に持続的で、金属を所有することが永遠に借り続けるより勝る(規模におけるコスト)。この3つの外ではAPIが勝つ。この中ではクラスタだけが、そもそもその仕事をこなせる唯一のものだ。
| 観点 | AMDの4ノードクラスタ | Kimi API/クラウド経路 |
|---|---|---|
| 生成速度 | 約8〜9.5 t/s | Kimi自身のK2.5エンドポイントで約56〜60 t/s |
| 最初のトークンまでの時間 | 39.7〜239.1秒 | プロバイダー依存、はるかに低い |
| コストモデル | ハードウェア約$8.2K〜$11.7K | トークンあたりのAPI価格 |
| プライバシー/オフライン | 完全にローカル | プロバイダーホスト型 |
| 最適なユースケース | プライベート、オフライン、バッチ処理 | 対話的/API利用 |
念のため言っておくと、NvidiaのDGX Sparkがここでの分かりやすい「でも、それなら」であり、AMDクラスタが勝てない軸のいくつかで勝っている。それはまるごと別の戦いであり、別の場所で取り上げるつもりだ。ハードウェア対クラウドの判断のうちレンタル側を知りたいなら、 CloudzyのGPU VPS のページがより実用的な比較対象だ。
実際に重要な部分
トークン速度と価格の議論を取り払うと、立ったまま残る事実が1つある。1兆パラメータのモデルを動かすハードウェアは、いまや建物ではなく棚だ、ということだ。
それが変化であり、速度をめぐる小競り合いの下で見落とされやすい。1年前、 カテゴリ として1.04兆パラメータのモデルを動かせる人々は「データセンターの運用者」だった。それで終わり。いまやそこには、ざっと1万ドルといくらかの忍耐を持つ誰もが含まれる。線は少し動いたのではない。まるごと新しい集団の人々が、施錠されていたドアを通り抜けたのだ。
それが開くものこそ面白い部分だ。あなたが所有するハードウェア上で完全に動くプライベートエージェント。飛行機の中やエアギャップの向こうで動く推論。電話をかける先がどこにもないため、物理的に家に電話をかけられないモデル。トークンの限界費用が、メーター付きのAPI回線ではなく電気代であるようなAIの経済。そのどれも1年前のコンシューマー向けハードウェアでは手が届かず、ユニファイドメモリこそがそこに手を届かせたものだ。
このパターンは何度も見てきたので、「これがすべてを変える」には警戒している。たいていは変えない。たいていは去年のものに新しいロゴが付いただけだ。これは違う。速いからではない。床が動いたから違うのだ。最先端規模のローカル推論の、遅くて高価で辛抱強いバージョンがいま存在し、速いバージョンは次のいくつかのハードウェア世代がそれを削り落とすだけの問題だ。難所はそもそも速度ではなかった。難所はアクセスであり、そのアクセスがたった今起きたのだ。
ここでの節目は速度ではない。誰がその部屋に入ることを許されるか、だ。 最先端規模のモデルを動かすマシンは、かつて建物だった。いまや棚の上の4つの箱だ。
よくある質問
ミニPCクラスタで本当に1兆パラメータのモデルを動かせるのか?
動かせる、ただし1つ重要な注意点がある。AMDはKimi K2.5、1.04兆パラメータのモデルを、4台のRyzen AI Max+ 395ミニPCにわたって動かした。BIOSでは、4台のシステムは合計で約384 GBの専用VRAMを公開でき、AMDのLinux手順はその割り当てをTTM/カーネル設定で合計480 GBまで引き上げる。だがKimi K2.5はMixture-of-Expertsモデルだ。その1.04兆パラメータのうち、任意のトークンで起動するのは約320億だけ。それらすべてを保持するメモリは必要だが、トークンあたりの計算は320億パラメータのワークロードに近い。
Kimi K2.5とは何か、そしてなぜここでMoEアーキテクチャが重要なのか?
Kimi K2.5はMoonshot AIによるオープンウェイトの言語モデルで、総パラメータ1.04兆、フォワードパスあたりのアクティブパラメータ320億を持ち、Mixture-of-Experts設計(384エキスパート、トークンごとに8起動に加えて1共有)の上に構築されている。このアーキテクチャが重要なのは、ハードウェアが各トークンに対して計算しなければならないのが総数ではなくアクティブなパラメータ数だからだ。だからこそ、紙の上では1兆パラメータを持つモデルが、そもそもコンシューマー向けの箱で動けるのだ。
毎秒8トークンはローカルAIに十分速いのか?
それは完全にワークロード次第だ。バッチ処理、非同期ジョブ、オフライン利用、あるいは何も自分のハードウェアから出せないプライベート推論なら、毎秒8トークンで問題ない。画面を見つめてなどいないのだから。対話的なコーディングには厳しい。主にこのクラスタでの最初のトークンまでの時間が、プロンプトの長さに応じて約40秒から4分近くまでかかり、最初の単語の前のその無音が反復ループを台無しにするからだ。
なぜKimiのAPIをそのまま使わないのか?
ほとんどの人にとっては、そうすべきだ。Kimi自身のK2.5エンドポイントは、現在のArtificial Analysisのデータではローカルクラスタよりはるかに速く、サードパーティのK2.5プロバイダーはさらに速かったり安かったりする。ローカルのハードウェアが意味を持つのは、プライバシーが必要なとき(データが外に出せない)、オフライン機能が必要なとき(接続が前提にできない)、あるいは規模におけるコスト(持続的な大量処理で所有がレンタルに勝る)だけだ。それらのケースの外では、APIのほうが良い選択だ。