おおよそ2,000〜3,000ドルのユニファイドメモリ搭載ミニPCは、次のようなものに収まらない、大幅に量子化された235B級モデルの一部をロードできる 単一のH100級GPU.
逆に聞こえるかもしれないので、比較を正確にしておこう。高価なカードははるかに高速だが、そのローカルGPUメモリは小さい。デスク上の小さな筐体はより大きな共有プールを持つ場合があり、生成が遅くてもモデルをロードできる。
その「どうやって」に対する一言の答えが「ユニファイドメモリ」だ。多くの新しいAIミニPCやMacのスペックシートに目玉数値として印刷されているが(「128GBユニファイドメモリ」)、それが実際に何をしているのかを説明する人はほとんどいない。だからそれがここでの目的だ。読み終える頃には、ユニファイドメモリとは何か、なぜそれが小型マシンに 実行 かつてサーバーラックを必要としたモデルを実行できるのか、そして見出しには誰も書かない落とし穴、つまりそのモデルの動作が遅いという点がわかるはずだ。
要点まとめ
- ユニファイドメモリとは、チップのCPUと統合GPUが共有する単一の物理メモリプールである。これは、独立したシステムRAMの隣に置かれる、ディスクリートグラフィックカードの小さく分離されたVRAMとは対照的である。
- この共有プールは大きく、GPUは通常、ディスクリートカードの固定されたVRAM上限よりもはるかに多くのメモリにアクセスできる。ただし正確に利用可能な量は、プラットフォーム、ファームウェア設定、OS、ランタイムによって異なる。そのため最初の疑問は、この量子化されたビルドが利用可能なメモリに収まるかどうかになる。128GBのプールは、24GBや32GBのグラフィックカードでは決して収まらなかったモデルを収容できる。
- 落とし穴は速度であって、サイズではない。 ユニファイドメモリは、ディスクリートカードのVRAMよりもはるかに遅くデータを転送する。大きなモデルは動作する。ただトークンの生成が遅いだけだ。ユニファイドメモリは大きなモデルを動かせるようにするものであって、速く動かせるようにするものではない。
- 「ユニファイド」は単一のものではない。 Appleのバージョンはユーザーからはほぼ見えない。AMDのバージョンはより多くの調整項目を公開している。ファームウェアとドライバーの設定が、GPUのために予約される、あるいは実質的にGPUが利用できるメモリ量に影響を与えるためだ。そして、メモリが多いことは速さを意味しない。
ユニファイドメモリとは何か
2つの構成を想像してほしい。ディスクリートグラフィックカードは、プロセッサのすぐ隣にボルト留めされた専用メモリ(VRAM)を持ち、高速だが小容量だ。システムRAMは、CPUが使う2つ目の別のプールである。GPUでモデルを実行するには、まずデータをシステムRAMからPCIeバス経由でVRAMにコピーする必要がある。2つのプール、1回のコピー処理だ。
ユニファイドメモリはこの分離を排除する。チップのCPUと統合GPUの両方が共有する単一の物理メモリプールであり、GPUは小さな別個のVRAMボックスに頼るのではなく、この共有プールから直接動作できる。Apple Siliconのようなプラットフォームでは、これによって従来のPCIe経由のコピー処理も回避される。 Apple自身によるアーキテクチャ解説 では、CPUとGPUが「同じメモリ上で動作する」ため、PCIeバス経由でデータをコピーする必要がないと説明されている。プールは一つ。コピーはゼロだ。
この共有プールは通常、パッケージにはんだ付けされたLPDDR5Xメモリであり、これによって大容量でありながらプロセッサに近接して配置できる。現在の代表例は、Apple SiliconのMac、Ryzen AI Max+ 395のようなチップを中心に構築されたAMDのStrix Haloシステム、そしてNvidiaのDGX Sparkだ。 AMDのRyzen AI Halo開発者プラットフォーム は128GBのLPDDR5xメモリを256GB/sの速度で搭載していると記載している。一方で NvidiaのDGX Spark は128GBのLPDDR5xユニファイドシステムメモリを273GB/sの速度で搭載していると記載している。
CPUと統合GPUの間でメモリを共有すること自体は新しくない。ノートPCは何年も前からそうしてきたが、それは通常妥協の産物だった。遅いメモリで、しかも量も少ない。変わったのは、利用可能な帯域幅における容量だ。共有プールが十分に大きくなり(おおよそ128GB級)、それでいて使う価値があるほど十分な速度を保った時、非常に大規模なオープンウェイトモデルをローカルに収められる一線を越えた。話はそれだけだ。アーキテクチャは古く、サイズが新しいのである。
「VRAMとの違い」についての補足。ユニファイドメモリはVRAMなのかとよく聞かれるが、正確には違う。VRAMはディスクリートカード上の専用グラフィックメモリであり、高速で独立している。ユニファイドメモリは、VRAMとシステムRAMの両方の役割を果たす一つの共有プールだ。ディスクリートカードの生の速度と引き換えに、サイズとコピー処理を省略できる利点を手に入れている。
なぜモデルはメモリに収まる必要があるのか
通常のインメモリ推論では、モデルの重みはプロセッサがアドレス指定できるメモリ上に置かれる必要がある。利用可能なメモリが小さすぎれば、そのデバイス上でモデルはきれいにロードされない。一部のツールはモデルの一部をCPUメモリやストレージにオフロードできるが、それはパフォーマンスプロファイルを大きく変えるものであり、モデルがGPUからアドレス指定可能なメモリに余裕を持って収まることとは異なる。容量は速度の問題より前に立ちはだかる、譲れない関門である。
これがユニファイドメモリが動かすレバーである。多くの一般消費者向けグラフィックカードはVRAMが24GB以下であり、トップクラスの単体消費者向けカードでも32GB程度に留まる。700億や2,350億パラメータのモデルにはとても足りない。235Bパラメータの単純な4ビット計算では、フォーマットのオーバーヘッド、ランタイムバッファ、コンテキストメモリを含めない時点でおよそ118GBから始まる。実際にダウンロード可能なビルドは大きく異なる。例えば OllamaのQwen3-235B-A22B Q4_K_Mビルド は142GBとされている一方、より積極的な低ビット量子化は128GBのユニファイドメモリ機で扱える範囲に近づくことがある。つまり、まさにこの用途のために作られたカードが、始める前にすでに容量切れになってしまうのだ。(それらのメモリ数値がどう計算されるか、パラメータ数×重みあたりのバイト数に、ファイルサイズには表れないオーバーヘッドを加えたもの、については別のテーマであり、 量子化の数学に関する姉妹記事 がその計算を行っている。)
128GBのユニファイドプールが変えるのは、たった一つの問いに対する答えだ。OS、ランタイム、KVキャッシュ、GPU割り当ての上限がそれぞれの取り分を取った後で、この特定の量子化ビルドは収まるのか、という問いである。いくつかの積極的な235B級量子化については、答えはイエスだ。だからこそ、コンパクトなユニファイドメモリ機が、VRAMの小さいGPUでは無理なモデルをロードできることがある。それはより強力だからではない。単にモデルを置くための部屋が大きいだけだ。
これが見出しが正しく伝えているのに説明を省いている最初のポイントだ。モデルがそもそも動くかどうかを決めるのは、生の性能ではなくプールのサイズなのである。
なぜユニファイドメモリはグラフィックカードより遅いのか
テキストを一度に1トークンずつ生成する処理は、メモリによって制限される 帯域幅のであり、プロセッサがどれだけ速く計算できるかによるのではない。生成するトークンごとに、モデルのアクティブな重みをプロセッサに流し込む必要があるため、速度の上限を決めるのはメモリがチップにどれだけ速くデータを供給できるかである。これはよく文書化されている シングルストリームデコーディングの「メモリバウンド」な性質。チップはほとんどの時間を計算ではなくメモリ待ちに費やしている。
そして帯域幅こそ、ユニファイドメモリが劣る点である。AMDのStrix Haloプールはカタログ値で256GB/sだが、llm-tracker.infoによる独立したテストでは実際には約212GB/sとされている。DGX Sparkは273GB/sだ。対照的に、ハイエンドのディスクリートグラフィックカードはデータを数倍速く転送する。専用VRAMはまさにそのために作られているからだ。そのため、あるモデルが 両方 ユニファイド機とディスクリートカードの両方に収まる場合、ディスクリートカードの方が明らかに速くトークンを生成する。同じモデル、同じ結果、しかし速度はまったく異なる。
密(dense)モデルの場合、有用な経験則は次の通りだ。
1秒あたりのトークン数 ≈ メモリ帯域幅 ÷ メモリ上のモデルサイズ
これは方向性を示すものであり、ベンチマークではないが、トレードオフを説明している。常駐する重みが小さい、あるいは帯域幅が高いほど、通常はデコードが速くなる。MoEモデルの場合、この経験則をパラメータ総数にそのまま適用してはならない。容量は依然として保存されている重みの総量に依存するが、トークンごとの速度は、アクティブになる経路、ルーティングのオーバーヘッド、キャッシュの挙動、実装により大きく左右される。
一つだけニュアンスを補足してこの話は終わりにする。リクエストには2つのフェーズがある。プロンプトを読む処理(プリフィル)は計算力に依存する。応答を生成する処理(デコード)は帯域幅に依存する。あなたが体感する遅さ、つまり単語が一つずつ表示されていくあの感覚こそが、帯域幅に律速される部分なのだ。
つまり、スペックシートには載っていない結論はこうだ。ユニファイドメモリは大きなモデルを動かせるようにするものであって、速く動かせるようにするものではない。容量の議論には勝つが、帯域幅の議論には負ける。そのトレードオフが割に合うかどうかは、あなたが何をするか次第であり、それは購入前に承知の上で結ぶべき公正な取引であって、購入後に発見する驚きであってはならない。
ユニファイドメモリはすべて同じなのか
いいえ。「ユニファイド」はカテゴリを表す言葉であって、単一の実装を指すものではなく、各バージョンは重要な点で異なる。Appleのバージョンはユーザーからはほぼ見えない。メモリはデフォルトで共有される。AMDのStrix Haloはより手が掛かる。ファームウェアとドライバーの設定が、GPUのために予約される、あるいは実質的にGPUが利用できるメモリ量に影響を与える。どちらもユニファイドメモリではあるが、体験としては同じではない。
この話題全体が生み出す誤解に名前をつけておこう。最もよくあるものだからだ。 メモリが多いことは、推論が速いことを意味しない。 それが意味するのは、 より大きな モデルが動作するということだ。誰かが速度を期待して128GBの筐体を買い、24GBのディスクリートカードにも収まるモデルをロードし、その小さなカードで動かした時よりも遅いことに失望する。両方の主張は同時に正しい。大きなプールはより多くを収容でき、小さく高速なカードは共通して扱える範囲でより速く動く。サイズと速度は別の軸だ。ユニファイドメモリが買っているのは前者だけである。
AMD側の実用上の注意点として、プールのうち実際にモデルに使える量は、ファームウェアの設定とオペレーティングシステムに依存する。 AMDのVariable Graphics Memory FAQ がその割り当ての仕組みを説明している。要点をまとめると、128GBの筐体でも128GBすべてがGPUに渡されるわけではなく、利用可能な量はVGM設定、予約されたシステムメモリ、OS、ランタイムに依存する。ラベルに書かれた数字ではなく、利用可能なメモリを基準に計画すべきだ。
実践的なヒント。ローカルモデル向けにマシンを選定する際は、スペックシートを一つの数字ではなく二つの数字として読むべきだ。容量はどのモデルが収まるかを教えてくれる。帯域幅は、収まった後どれだけ速く動くかを教えてくれる。巨大なプールと控えめな帯域幅を持つ筐体は、大きなモデルを遅く動かす筐体であり、それは事前にわかっていればまさに望み通りのものかもしれない。
もう一つ、指摘しておくべきケースがある。この大容量プールを持つマシンで人々を混乱させる要因だからだ。それがMixture-of-Expertsモデルである。 Qwen3-235B-A22Bのような は総パラメータ数2350億だが、トークンごとに活性化されるのはそのうち約220億のみである。それなら活性部分だけのメモリで済むと思いたくなるが、通常のインメモリ推論ではそうはならない。どのトークンでもどのエキスパートにルーティングされる可能性があるため、2350億の重みすべてがランタイムから使える状態でどこかに常駐していなければならない。削減されるのはトークンあたりの計算量だけであり、容量要件ではない。まさにこの区別こそが、ユニファイドメモリの大きなプールが真価を発揮する場面であり、 量子化の数学に関する姉妹記事 がそれらの数字が実際にどうなるかを詳しく解説している。
よくある質問
ユニファイドメモリはVRAMと同じなのか
いいえ。VRAMはディスクリートグラフィックカードに組み込まれた専用の高速メモリであり、システムRAMとは分離されている。ユニファイドメモリはCPUとGPUの両方が使用する単一の共有プールであり、VRAMとシステムRAMの両方の役割を同時に果たす。ユニファイドメモリは通常、ディスクリートカードのVRAMより容量が大きいが速度は遅く、2つのプール間でデータをコピーする処理を省略する。
メモリに収まっているのに、なぜローカルモデルは遅いのか
収まることと速く動くことは別問題だからだ。モデルがロードできるかどうかはメモリ容量に依存し、テキスト生成の速さはメモリ帯域幅に依存する。ユニファイドメモリは容量には余裕があるが、ディスクリートグラフィックカードよりはるかに帯域幅が低いため、余裕を持って収まるモデルでもトークン生成は遅くなり得る。密(dense)モデルの場合、大まかな関係は「1秒あたりのトークン数 ≈ 帯域幅 ÷ モデルサイズ」である。MoEモデルの場合、容量は依然として保存されている重みの総量に依存するが、速度はアクティブになる経路とランタイムの実装により大きく左右される。
ユニファイドメモリがあれば、それでもGPUは必要なのか
統合GPUはすでにユニファイドメモリチップの一部であり、それがモデルを実行している。本当の問いは、それに加えてディスクリートGPUも欲しいかどうかだ。多くのディスクリートカードははるかに高い帯域幅を提供し、それは生成の高速化を意味するが、大規模なユニファイドメモリシステムよりローカルメモリが少なく、単体では最大級のモデルを保持できないことがある。ユニファイドメモリは、低速ながら大きなモデルが収まる大きなプールを与えてくれる。どちらが欲しいかは、モデルサイズと速度のどちらを優先するかによる。
なぜミニPCがデータセンター向けGPUを必要とするモデルを実行できるのか
モデルのロードにおけるボトルネックはメモリ容量であり、大きなユニファイドプールを持つミニPCは、多くの単一GPU構成よりも使用可能なモデルメモリを多く持てるからだ。一般消費者向けGPUのVRAMは24〜32GB程度であり、単一のH100級データセンターGPUは80〜94GBだが、一部のユニファイドメモリシステムは128GBの共有プールを謳っている。モデルの重みはすべて、プロセッサが届く場所に収まらなければならない。大きな共有プールはそれを収められるが、小さく高速なVRAMは収められない。ミニPCがより強力なわけではない。単に余裕があるだけだ。
収まることが勝利。必要な量がどれくらいかが次の問い
ユニファイドメモリの貢献は一つの明快な点に集約される。大きく共有された、アドレス指定可能なプールが、小型マシンに 収める かつてサーバーを必要としたモデルを収められるようにすることだ。それが容量面での勝利である。帯域幅という落とし穴がその代償であり、これでどの数値がどの挙動を支配しているかを理解した上でスペックシートを読めるようになったはずだ。
自然な次の問いは、この記事がずっと先送りしてきたものだ。特定のモデルは実際どれだけのメモリを必要とするのか。それは算術の問題である。パラメータ数、重みあたりのバイト数、選択する圧縮レベル、そしてファイルサイズには表れないコンテキストという税金だ。 GGUF、GPTQ、AWQ、EXL2の量子化に関する姉妹記事 がまさにその計算を詳しく解説している。マシンのサイズを決めたり、モデルを選んだりする前に、目を通しておく価値がある。