決めているなら H100 対 RTX 4090 AI の場合、ほとんどの「ベンチマーク」は、モデルとキャッシュが実際に VRAM に収まるまでは重要ではないことに留意してください。 RTX 4090 は、24 GB 以内に収まるシングル GPU 作業のスイート スポットです。
H100 は、より大きなモデル、より高い同時実行性、マルチユーザー分離、またはメモリ体操に費やす時間を短縮する必要がある場合にたどり着くものです。
ワークロードごとに分類し、ベンチマークの種類を示し、独自のスタックで実行できる高速テスト計画を示します。
クイックアンサー: AI ワークロード向けの H100 と RTX 4090
H100 大規模な HBM プール、非常に高いメモリ帯域幅、NVLink、および分離用の MIG を備えているため、大規模なモデルのトレーニングと本格的なサービスに最適です。 RTX4090 常に妥協せずにワークロードが 24 GB に収まる限り、「より良い価格で優れたシングル GPU の速度が必要」という場合に適しています。仕様とプラットフォームの機能により、これは非常に簡単になります。
ペルソナ別のクイックピックリストは次のとおりです。
- ローカル LLM ビルダー (ソロ開発/学生): VRAMがボトルネックになるまではRTX 4090。
- スタートアップ ML エンジニア (MVP を出荷): 初期段階のサービス提供と微調整には RTX 4090、安定した同時実行性またはより大きなモデルが必要になったら H100。
- 応用研究者 (多くの実験): OOM、バッチキャップ、または長いコンテキストに達し続ける場合は H100。
- プロダクション / プラットフォーム チーム (マルチテナント サービス): MIG スライス用の H100、より高いヘッドルーム、よりスムーズなスケーリング。
このような枠組みを踏まえて、この記事の残りの部分では、人々が現実生活で遭遇する限界と、ベンチマークの数値がどのようにそれに一致するかについて説明します。
考慮すべき唯一のベンチマーク質問: VRAM に適合するものは何ですか?
に関するほとんどのスレッド H100 対 RTX 4090 技術的には VRAM 引数です。 LLM 作業では VRAM が食われます 重み, アクティベーション トレーニング中に、 オプティマイザの状態 トレーニング中、そして KVキャッシュ 推理中。最後のものは、コンテキストの長さと同時実行性とともに増加するため、人々があまり期待していないものです。
正確な適合性はフレームワーク、精度、オーバーヘッドに依存するため、以下の表は意図的に高レベルになっています。
これは「ドラマなしで大丈夫ですか?」です。ビュー:
| ワークロード | RTX 4090 (24 GB) 上の一般的なシングル GPU リアリティ | H100 上の一般的なシングル GPU リアリティ (80 ~ 94 GB) |
| 7B LLM 推論 (FP16 / BF16) | 通常は問題ありません | 快適なヘッドルーム |
| 13B LLM 推論 | 状況に応じてタイトになることが多い | 通常は問題ありません |
| 70B クラスの推論 | 大量のクオント/オフロードが必要 | はるかに現実的 |
| SD/SDXL 推論 + 小規模バッチ | 通常は問題ありません | 優れたバッチヘッドルーム |
| より高い同時実行性でサービスを提供する | KV キャッシュ プレッシャーが高速に表示されます | スペースが広くなり、負荷がかかっても安定します |
(これら 2 つだけでなく) より広範な GPU 候補リストが必要な場合は、 2025 年の機械学習に最適な GPU は、一般的な AI GPU にわたる VRAM とメモリ帯域幅の便利な参照表です。
ワークロードが適切であることがわかったら、次にどの程度「スムーズ」に感じられるかを決定するのはメモリ帯域幅です。
帯域幅: HBM が違うと感じる理由
AI パフォーマンスに関する話題の多くは計算のピークに固定されていますが、トランスフォーマーはメモリの移動に非常に敏感です。 H100 の利点は、大規模な HBM プールと非常に高いメモリ帯域幅、さらに NVLink 帯域幅およびプラットフォーム側の MIG パーティショニングを組み合わせていることです。
スペックスナップショット
スペックによって GPU が決まるわけではありませんが、同じワークロードが一方のカードでは楽に感じられ、もう一方のカードでは窮屈に感じられる理由はスペックによって説明されます。このスナップショットは、LLM のトレーニング、推論、サービスの動作に最も影響を与えるものを示しています。
| スペック | H100(SXM/NVL) | RTX4090 |
| VRAM | 80 GB / 94 GB | 24 GB |
| メモリ帯域幅 | 3.35 ~ 3.9 TB/秒 | GDDR6X (24 GB で容量制限あり) |
| 相互接続 | NVLink + PCIe Gen5 | PCIe (コンシューマ プラットフォーム) |
| マルチインスタンス | 最大 7 つの MIG インスタンス | 該当なし |
仕様参照: NVIDIA H100, NVIDIA RTX 4090.
これは実際には次のようになります。
- バッチ サイズやコンテキストの長さを上げようとしている場合、H100 はトレードオフに陥る前に安定した状態を長く保つ傾向があります。
- 多くのリクエストを一度に処理する場合、H100 にはより多くの「メモリ呼吸の余地」があるため、不安定なテール レイテンシがすぐに発生することはありません。
- 作業のほとんどが単一ユーザー、単一モデル、控えめなコンテキストの場合、4090 は高速で満足のいくものであると感じることがよくあります。
ただし、帯域幅は優れたベンチマークに代わるものではありません。これは、2 つの GPU が狭いテストでは近くに見えるのに、実際の負荷がかかると離れてしまう理由を説明しているだけです。
信頼性の高い H100 と RTX 4090 のベンチマーク

ベンチマークはすべて同じではないため、「私の数値があなたの数値と一致しない」ということが頻繁に起こります。のために H100 対 RTX 4090、ベンチマークを 2 つのレーンに分割すると役立ちます。
- レーンA (コミュニティ感覚): llama.cpp-style tokens/sec tests and simple inference scripts.
- レーン B (標準化されたスイート): MLPerf トレーニングおよび MLPerf 推論スタイルの結果。反復可能なルールに焦点を当てています。
Llama.cpp スタイルの推論スナップショット
これは人々が自宅で実施し、その後 3 日間議論するような種類のテストです。これは、多くのビルダーが使用する「実際のツールチェーン」を反映しているため便利ですが、適合性と精度を無視すると誤読しやすくなります。
公開されている llama.cpp スタイルの比較 RTX 4090 は小規模なモデルや量子化された実行では非常に優れたパフォーマンスを示していますが、高精度の大型モデルでは VRAM の上限を超えています。
予想されるパターンは次のとおりです。
| モデル | GPU | 典型的な結果 |
| 7Bクラス | RTX4090 | 高いトークン/秒、スムーズなシングルユーザー推論 |
| 13Bクラス | RTX4090 | まだ良いですが、コンテキストとオーバーヘッドが重要になり始めます |
| 70Bクラス | RTX4090 | 積極的なクオンツ/オフロードがないとうまく適合しない |
| 70Bクラス | H100 | 常駐させて確実にサービスを提供する方がはるかに現実的です |
この表のポイントは「4090 が悪い」とか「H100 マジック」ということではありません。 VRAM の上限によってどれだけ常駐できるかが決まり、それが速度、安定性、操作の量に影響します。
生き残るために常にコンテキストの長さを削減している場合、その時点でこの比較は理論的ではなくなります。
MLPerf で追加され、フォーラム ベンチマークでは追加されないもの
MLPerf が存在するのは、一度数千ドルの決断を下すと、「ランダムなスクリプトと雰囲気」が機能しなくなるからです。 MLコモンズが追加しました 新しい世代 AI スタイルのワークロード MLPerf は、システム間で結果の比較がより容易になるように設計されています。
トレーニング面では、 NVIDIA の MLPerf Training v5.1 の記事 これは、ベンダーが送信環境と準拠しているベンチマーク ルールの詳細を含めてトレーニング時間を報告する方法の好例です。
このレーンではプライベート プロンプトがどのように動作するかはわかりませんが、システム レベルのスケーリングと「このクラスのハードウェアがルールの下でどのように動作するか」の健全性チェックになります。
次に、購入に最も影響を与える部分、つまり作業を完了するために費やされる時間と費用について説明します。
コスト、時間、機会コスト

たくさんの H100 対 RTX 4090 意思決定は「購入価格とレンタル価格」で決まります。それが適切なフレームであることはほとんどありません。より良いフレームは、実際に使用できるモデルを作成するのに何時間かかり、制約と戦うのにどのくらいの時間を費やすかということです。
3 つの一般的なシナリオは、トレードオフを非常に明確に示しています。
中小規模モデルの毎週の微調整
常に妥協することなく実行が 24 GB 以内に収まる場合は、4090 パスが最適です。反復処理が迅速で、クラスター時間をスケジュールする必要がなく、セットアップも簡単です。すべての実行が「低バッチ、コンテキストの切断、再試行」になる場合は、コストは高くなりますが、H100 の方がはるかに賢明なアイデアです。
実際の同時実行性によるサービスの提供
同時実行により、KV キャッシュの負荷が急速に高まります。これは、特に予測可能な遅延が必要な場合に、H100 のヘッドルームとプラットフォーム制御が役立つ場所です。
GPU サーバーが適切な形状であるか、展開に適しているかどうかをまだ判断していない場合は、 GPU VPS と CPU VPS の比較 ブレークダウンは、間違った最適化に時間を費やす前に、ワークロードをインフラストラクチャ タイプにマッピングする便利な方法です。
期限のある大規模なトレーニング ジョブ
1 人 1 台の枠を超えて規模を拡大すると、安定した環境、障害モードの減少、基本的な子守りに費やす時間の短縮など、退屈な作業に集中する必要があります。 H100 はそのような目的で設計されています。
このセクションを読んでもまだ迷っている場合は、次のステップはこれ以上読む必要はありません。ドライバーの摩擦やマルチユーザーのワークロードなど、スタックが実際にどのように動作するかを調べます。
ソフトウェアと運用: ドライバー、安定性、マルチユーザー、サポート
これはほとんどのベンチマーク チャートが省略している部分ですが、日常生活の大きな部分を占めています。
RTX 4090 は、多くの AI ワークフローでアクセスしやすく、高速であるため人気があります。その代償として、ユースケースが拡大すると、共有のマルチテナント環境用に構築されていないメモリの上限やスケーリング パターンの限界に達する可能性が高くなります。
H100 はクラスター用に構築されています。 MIG は、1 つの GPU を独立したスライスに分割できるため、プラットフォーム チームにとって非常に重要です。これにより、「ノイジー ネイバー」の問題が軽減され、キャパシティ プランニングがはるかに容易になります。 NVIDIA の公式 H100 仕様には、フォーム ファクターに応じて最大 7 つの MIG インスタンスがリストされています。
ワークロードが個人的でローカルなものであれば、長い間 4090 側で幸せに暮らすことができます。ワークロードがマルチユーザーで顧客対応の場合は、H100 がより安全な方法です。
では、全体として、誰が何を買うべきでしょうか?
ワークロードに応じてどれを選択すべきか

のために H100 対 RTX 4090、正しい選択は、最終的には最大のハードルを取り除くものです。
ローカル LLM ビルダー (ソロ開発 / 学生)
主に 7B ~ 13B の範囲内にあり、量子化推論を実行したり、RAG をいじったり、SDXL に取り組んだりする場合は、RTX 4090 を選択してください。構築しようとしているものを構築するよりもメモリを扱う作業に多くの時間を費やしたら、次のステップに進みます。
スタートアップ ML エンジニア (MVP を提供)
MVP が中程度のトラフィックを伴う単一モデルで、快適にフィットする場合は、4090 が強力なスタートとなります。スパイク時の安定したレイテンシ、より高い同時実行性、またはホストごとの複数のワークロードが必要な場合は、H100 がより穏やかなパスです。
応用研究者(実験多数)
バッチサイズを削減したり、精密な体操をしたりするなど、頻繁に妥協を強いられる場合、H100 を使用すると実験がよりクリーンになり、デッドランが減ります。
プロダクション / プラットフォーム チーム (マルチテナント サービス)
H100 は簡単に判断できます。主な理由は、MIG と高いヘッドルームによりキャパシティ プランニングが容易になり、基本的に何かが急増した場合の影響範囲が小さくなるからです。
それでもハードウェアにお金をかけたくない場合は、レンタルするのが最善の次の手段です。
実用的な中間パス: まず GPU をレンタルしてからコミットする
最もクリーンな解決方法 H100 対 RTX 4090 走ることです あなたの モデル、 あなたの プロンプト、および あなたの 両方のクラスのハードウェアのコンテキスト長を調べてから、負荷時のトークン/秒とテール レイテンシを比較します。
まさにそれが私たちが構築した理由です Cloudzy GPU VPSGPU ボックスは 1 分以内に入手できるので、完全な root でスタックをインストールし、他の人のベンチマークに基づいて推測するのはやめてください。
GPU VPS プランで得られるものは次のとおりです。
- 専用の NVIDIA GPU (RTX 4090 および A100 クラスのオプションを含む) なので、結果が近隣のノイズから逸脱することはありません。
- 最大 40 Gbps のネットワーク これは、データセットのプル、マルチノード ワークフロー、アーティファクトの高速移動にとって大きな問題です。
- NVMe SSDストレージ、プラス DDR5 RAM すべての層に高周波数 CPU オプションがあるため、ボックスの残りの部分が GPU を低下させることはありません。
- DDoS保護 そして 99.95% の稼働率ので、長時間の仕事がインターネットのランダムなノイズによって台無しになることはありません。
- 時間単位の請求 (短いベンチマーク スプリントに便利) 14日間の返金保証 低リスクの検査に。
最初に RTX 4090 プランで同じベンチマーク チェックリストを実行し、より大きなコンテキスト、より高い同時実行性、またはより大きなモデルをプッシュする場合は、A100 クラスのプランで繰り返します。その後、次のいずれかを選択します H100 対 RTX 4090 通常、あなた自身のログから明らかになります。
ベンチマーク チェックリスト: 30 分で独自のベンチマーク チェックリストを実行する
擁護できる決定が必要な場合は、出荷する予定のスタックから 4 つの数字を取得します。
- トークン/秒 ターゲットコンテキストの長さで
- p95 レイテンシ 予想される同時実行数で
- VRAM ヘッドルーム 最も暑い段階で
- 完了した実行ごとのコスト 最初から成果物まで
vLLM を使用した最小限のスモーク テストは次のようになります。
pip install vllm transformers accelerate
python -m vllm.entrypoints.api_server \
--model meta-llama/Llama-3-8B-Instruct \
--dtype float16 \
--max-model-len 8192
実際に何をレンタルしているのかを明確に知りたい場合は、次の投稿をご覧ください。 GPU VPS とは何ですか? では、専用 GPU アクセスと vGPU 共有の違い、およびプランを選択する前に確認すべき事項について説明します。