H100 対 RTX 4090: AI ワークロードのベンチマーク

決めているなら H100 対 RTX 4090 AI の場合、ほとんどの「ベンチマーク」は、モデルとキャッシュが実際に VRAM に収まるまでは重要ではないことに留意してください。 RTX 4090 は、24 GB 以内に収まるシングル GPU 作業のスイートスポットです。

H100 は、より大きなモデル、より高い同時実行性、マルチユーザー分離、またはメモリ体操に費やす時間を短縮する必要がある場合にたどり着くものです。

ワークロードごとに分類し、ベンチマークの種類を示し、独自のスタックで実行できる高速テスト計画を示します。

クイックアンサー: AI ワークロード向けの H100 と RTX 4090

H100 大規模な HBM プール、非常に高いメモリ帯域幅、NVLink、および分離用の MIG を備えているため、大規模なモデルのトレーニングと本格的なサービスに最適です。 RTX4090 常に妥協せずにワークロードが 24 GB に収まる限り、「より良い価格で優れたシングル GPU の速度が必要」という場合に適しています。仕様とプラットフォームの機能により、これは非常に簡単になります。

ペルソナ別のクイックピックリストは次のとおりです。

ローカル LLM ビルダー (ソロ開発/学生): VRAMがボトルネックになるまではRTX 4090。
スタートアップ ML エンジニア (MVP を出荷): 初期段階のサービス提供と微調整には RTX 4090、安定した同時実行性またはより大きなモデルが必要になったら H100。
応用研究者 (多くの実験): OOM、バッチキャップ、または長いコンテキストに達し続ける場合は H100。
プロダクション / プラットフォームチーム (マルチテナントサービス): MIG スライス用の H100、より高いヘッドルーム、よりスムーズなスケーリング。

このような枠組みを踏まえて、この記事の残りの部分では、人々が現実生活で遭遇する限界と、ベンチマークの数値がどのようにそれに一致するかについて説明します。

考慮すべき唯一のベンチマーク質問: VRAM に適合するものは何ですか?

に関するほとんどのスレッド H100 対 RTX 4090 技術的には VRAM 引数です。 LLM 作業では VRAM が食われます重み, アクティベーション トレーニング中に、 オプティマイザの状態 トレーニング中、そして KVキャッシュ 推理中。最後のものは、コンテキストの長さと同時実行性とともに増加するため、人々があまり期待していないものです。

正確な適合性はフレームワーク、精度、オーバーヘッドに依存するため、以下の表は意図的に高レベルになっています。

これは「ドラマなしで大丈夫ですか？」です。ビュー：

ワークロード	RTX 4090 (24 GB) 上の一般的なシングル GPU リアリティ	H100 上の一般的なシングル GPU リアリティ (80 ～ 94 GB)
7B LLM 推論 (FP16 / BF16)	通常は問題ありません	快適なヘッドルーム
13B LLM 推論	状況に応じてタイトになることが多い	通常は問題ありません
70B クラスの推論	大量のクオント/オフロードが必要	はるかに現実的
SD/SDXL 推論 + 小規模バッチ	通常は問題ありません	優れたバッチヘッドルーム
より高い同時実行性でサービスを提供する	KV キャッシュプレッシャーが高速に表示されます	スペースが広くなり、負荷がかかっても安定します

(これら 2 つだけでなく) より広範な GPU 候補リストが必要な場合は、 2025 年の機械学習に最適な GPU は、一般的な AI GPU にわたる VRAM とメモリ帯域幅の便利な参照表です。

ワークロードが適切であることがわかったら、次にどの程度「スムーズ」に感じられるかを決定するのはメモリ帯域幅です。

帯域幅: HBM が違うと感じる理由

AI パフォーマンスに関する話題の多くは計算のピークに固定されていますが、トランスフォーマーはメモリの移動に非常に敏感です。 H100 の利点は、大規模な HBM プールと非常に高いメモリ帯域幅、さらに NVLink 帯域幅およびプラットフォーム側の MIG パーティショニングを組み合わせていることです。

スペックスナップショット

スペックによって GPU が決まるわけではありませんが、同じワークロードが一方のカードでは楽に感じられ、もう一方のカードでは窮屈に感じられる理由はスペックによって説明されます。このスナップショットは、LLM のトレーニング、推論、サービスの動作に最も影響を与えるものを示しています。

スペック	H100(SXM/NVL)	RTX4090
VRAM	80 GB / 94 GB	24 GB
メモリ帯域幅	3.35 ～ 3.9 TB/秒	GDDR6X (24 GB で容量制限あり)
相互接続	NVLink + PCIe Gen5	PCIe (コンシューマプラットフォーム)
マルチインスタンス	最大 7 つの MIG インスタンス	該当なし

仕様参照: NVIDIA H100, NVIDIA RTX 4090.

これは実際には次のようになります。

バッチサイズやコンテキストの長さを上げようとしている場合、H100 はトレードオフに陥る前に安定した状態を長く保つ傾向があります。
多くのリクエストを一度に処理する場合、H100 にはより多くの「メモリ呼吸の余地」があるため、不安定なテールレイテンシがすぐに発生することはありません。
作業のほとんどが単一ユーザー、単一モデル、控えめなコンテキストの場合、4090 は高速で満足のいくものであると感じることがよくあります。

ただし、帯域幅は優れたベンチマークに代わるものではありません。これは、2 つの GPU が狭いテストでは近くに見えるのに、実際の負荷がかかると離れてしまう理由を説明しているだけです。

信頼性の高い H100 と RTX 4090 のベンチマーク

AI ワークロードの H100 と RTX 4090 ベンチマーク。デスクトップ GPU とサーバーボードの横のモニターに、トークン/秒のグラフと推論結果が表示されます。

ベンチマークはすべて同じではないため、「私の数値があなたの数値と一致しない」ということが頻繁に起こります。のために H100 対 RTX 4090、ベンチマークを 2 つのレーンに分割すると役立ちます。

レーンA (コミュニティ感覚): llama.cpp-style tokens/sec tests and simple inference scripts.
レーン B (標準化されたスイート): MLPerf トレーニングおよび MLPerf 推論スタイルの結果。反復可能なルールに焦点を当てています。

Llama.cpp スタイルの推論スナップショット

これは人々が自宅で実施し、その後 3 日間議論するような種類のテストです。これは、多くのビルダーが使用する「実際のツールチェーン」を反映しているため便利ですが、適合性と精度を無視すると誤読しやすくなります。

公開されている llama.cpp スタイルの比較 RTX 4090 は小規模なモデルや量子化された実行では非常に優れたパフォーマンスを示していますが、高精度の大型モデルでは VRAM の上限を超えています。

予想されるパターンは次のとおりです。

モデル	GPU	典型的な結果
7Bクラス	RTX4090	高いトークン/秒、スムーズなシングルユーザー推論
13Bクラス	RTX4090	まだ良いですが、コンテキストとオーバーヘッドが重要になり始めます
70Bクラス	RTX4090	積極的なクオンツ/オフロードがないとうまく適合しない
70Bクラス	H100	常駐させて確実にサービスを提供する方がはるかに現実的です

この表のポイントは「4090 が悪い」とか「H100 マジック」ということではありません。 VRAM の上限によってどれだけ常駐できるかが決まり、それが速度、安定性、操作の量に影響します。

生き残るために常にコンテキストの長さを削減している場合、その時点でこの比較は理論的ではなくなります。

MLPerf で追加され、フォーラムベンチマークでは追加されないもの

MLPerf が存在するのは、一度数千ドルの決断を下すと、「ランダムなスクリプトと雰囲気」が機能しなくなるからです。 MLコモンズが追加しました新しい世代 AI スタイルのワークロード MLPerf は、システム間で結果の比較がより容易になるように設計されています。

トレーニング面では、 NVIDIA の MLPerf Training v5.1 の記事これは、ベンダーが送信環境と準拠しているベンチマークルールの詳細を含めてトレーニング時間を報告する方法の好例です。

このレーンではプライベートプロンプトがどのように動作するかはわかりませんが、システムレベルのスケーリングと「このクラスのハードウェアがルールの下でどのように動作するか」の健全性チェックになります。

次に、購入に最も影響を与える部分、つまり作業を完了するために費やされる時間と費用について説明します。

コスト、時間、機会コスト

H100 と RTX 4090 のセットアップ中にラックサーバーに GPU を取り付け、H100 ベンチマークと RTX 4090 AI パフォーマンステスト用のハードウェアを準備する技術者。

たくさんの H100 対 RTX 4090 意思決定は「購入価格とレンタル価格」で決まります。それが適切なフレームであることはほとんどありません。より良いフレームは、実際に使用できるモデルを作成するのに何時間かかり、制約と戦うのにどのくらいの時間を費やすかということです。

3 つの一般的なシナリオは、トレードオフを非常に明確に示しています。

中小規模モデルの毎週の微調整

常に妥協することなく実行が 24 GB 以内に収まる場合は、4090 パスが最適です。反復処理が迅速で、クラスター時間をスケジュールする必要がなく、セットアップも簡単です。すべての実行が「低バッチ、コンテキストの切断、再試行」になる場合は、コストは高くなりますが、H100 の方がはるかに賢明なアイデアです。

実際の同時実行性によるサービスの提供

同時実行により、KV キャッシュの負荷が急速に高まります。これは、特に予測可能な遅延が必要な場合に、H100 のヘッドルームとプラットフォーム制御が役立つ場所です。

GPU サーバーが適切な形状であるか、展開に適しているかどうかをまだ判断していない場合は、 GPU VPS と CPU VPS の比較 ブレークダウンは、間違った最適化に時間を費やす前に、ワークロードをインフラストラクチャタイプにマッピングする便利な方法です。

期限のある大規模なトレーニングジョブ

1 人 1 台の枠を超えて規模を拡大すると、安定した環境、障害モードの減少、基本的な子守りに費やす時間の短縮など、退屈な作業に集中する必要があります。 H100 はそのような目的で設計されています。

このセクションを読んでもまだ迷っている場合は、次のステップはこれ以上読む必要はありません。ドライバーの摩擦やマルチユーザーのワークロードなど、スタックが実際にどのように動作するかを調べます。

ソフトウェアと運用: ドライバー、安定性、マルチユーザー、サポート

これはほとんどのベンチマークチャートが省略している部分ですが、日常生活の大きな部分を占めています。

RTX 4090 は、多くの AI ワークフローでアクセスしやすく、高速であるため人気があります。その代償として、ユースケースが拡大すると、共有のマルチテナント環境用に構築されていないメモリの上限やスケーリングパターンの限界に達する可能性が高くなります。

H100 はクラスター用に構築されています。 MIG は、1 つの GPU を独立したスライスに分割できるため、プラットフォームチームにとって非常に重要です。これにより、「ノイジーネイバー」の問題が軽減され、キャパシティプランニングがはるかに容易になります。 NVIDIA の公式 H100 仕様には、フォームファクターに応じて最大 7 つの MIG インスタンスがリストされています。

ワークロードが個人的でローカルなものであれば、長い間 4090 側で幸せに暮らすことができます。ワークロードがマルチユーザーで顧客対応の場合は、H100 がより安全な方法です。

では、全体として、誰が何を買うべきでしょうか?

ワークロードに応じてどれを選択すべきか

H100 ベンチマークと RTX 4090 AI パフォーマンスのユースケース: 学生のデスクトップ、スタートアップラック、研究者のワークステーション、プラットフォームチームサーバー。

のために H100 対 RTX 4090、正しい選択は、最終的には最大のハードルを取り除くものです。

ローカル LLM ビルダー (ソロ開発 / 学生)

主に 7B ～ 13B の範囲内にあり、量子化推論を実行したり、RAG をいじったり、SDXL に取り組んだりする場合は、RTX 4090 を選択してください。構築しようとしているものを構築するよりもメモリを扱う作業に多くの時間を費やしたら、次のステップに進みます。

スタートアップ ML エンジニア (MVP を提供)

MVP が中程度のトラフィックを伴う単一モデルで、快適にフィットする場合は、4090 が強力なスタートとなります。スパイク時の安定したレイテンシ、より高い同時実行性、またはホストごとの複数のワークロードが必要な場合は、H100 がより穏やかなパスです。

応用研究者（実験多数）

バッチサイズを削減したり、精密な体操をしたりするなど、頻繁に妥協を強いられる場合、H100 を使用すると実験がよりクリーンになり、デッドランが減ります。

プロダクション / プラットフォームチーム (マルチテナントサービス)

H100 は簡単に判断できます。主な理由は、MIG と高いヘッドルームによりキャパシティプランニングが容易になり、基本的に何かが急増した場合の影響範囲が小さくなるからです。

それでもハードウェアにお金をかけたくない場合は、レンタルするのが最善の次の手段です。

実用的な中間パス: まず GPU をレンタルしてからコミットする

最もクリーンな解決方法 H100 対 RTX 4090 走ることです あなたの モデル、 あなたの プロンプト、および あなたの 両方のクラスのハードウェアのコンテキスト長を調べてから、負荷時のトークン/秒とテールレイテンシを比較します。

まさにそれが私たちが構築した理由です Cloudzy GPU VPSGPU ボックスは 1 分以内に入手できるので、完全な root でスタックをインストールし、他の人のベンチマークに基づいて推測するのはやめてください。

GPU VPS プランで得られるものは次のとおりです。

専用の NVIDIA GPU (RTX 4090 および A100 クラスのオプションを含む) なので、結果が近隣のノイズから逸脱することはありません。
最大 40 Gbps のネットワーク これは、データセットのプル、マルチノードワークフロー、アーティファクトの高速移動にとって大きな問題です。
NVMe SSDストレージ、プラス DDR5 RAM すべての層に高周波数 CPU オプションがあるため、ボックスの残りの部分が GPU を低下させることはありません。
DDoS保護 そして 99.95% の稼働率ので、長時間の仕事がインターネットのランダムなノイズによって台無しになることはありません。
時間単位の請求 (短いベンチマークスプリントに便利) 14日間の返金保証 低リスクの検査に。

最初に RTX 4090 プランで同じベンチマークチェックリストを実行し、より大きなコンテキスト、より高い同時実行性、またはより大きなモデルをプッシュする場合は、A100 クラスのプランで繰り返します。その後、次のいずれかを選択します H100 対 RTX 4090 通常、あなた自身のログから明らかになります。

ベンチマークチェックリスト: 30 分で独自のベンチマークチェックリストを実行する

擁護できる決定が必要な場合は、出荷する予定のスタックから 4 つの数字を取得します。

トークン/秒 ターゲットコンテキストの長さで
p95 レイテンシ 予想される同時実行数で
VRAM ヘッドルーム 最も暑い段階で
完了した実行ごとのコスト 最初から成果物まで

vLLM を使用した最小限のスモークテストは次のようになります。

pip install vllm transformers accelerate

python -m vllm.entrypoints.api_server \

  --model meta-llama/Llama-3-8B-Instruct \

  --dtype float16 \

  --max-model-len 8192

実際に何をレンタルしているのかを明確に知りたい場合は、次の投稿をご覧ください。 GPU VPS とは何ですか? では、専用 GPU アクセスと vGPU 共有の違い、およびプランを選択する前に確認すべき事項について説明します。

よくある質問

RTX 4090 は機械学習に適していますか?

はい、ワークロードが 24 GB に収まる限り、可能です。これは、多くの開発および研究ワークフローにとって強力なシングル GPU オプションです。

RTX 4090 は 1 枚のカードで 70B クラスの LLM を実行できますか?

きれいに高精度ではありません。量子化とオフロードを使用してそれをプッシュすることはできますが、24 GB の上限により、急速なトレードオフが強制されます。

VRAM が LLM の動作にとってそれほど重要なのはなぜですか?

重みとキャッシュが適合しない瞬間にページングまたはオフロードが開始され、スループットと遅延が予測不能になることがよくあります。より大きな VRAM とより高い帯域幅により、より多くのワークロードが常駐します。

MIG とは何ですか?また、プラットフォームチームが MIG を好む理由は何ですか?

MIG は 1 つの H100 を独立した GPU インスタンスに分割します。これにより、マルチテナントのスケジューリングが容易になり、ノイジーネイバーの影響が軽減されます。

どのベンチマークを信頼すればよいでしょうか?

まず自分自身のテストを信頼してください。システムレベルの動作と反復可能な比較の健全性チェックとして、MLPerf などの標準化されたスイートを使用します。

詳細はブログから

読み続けてください。

リポ AI コーディングエージェントと OpenClaw 自律型 AI エージェントゲートウェイを比較する、opencode と openclaw の機能。

AI と機械学習

OpenCode と OpenClaw: どちらのセルフホスト型 AI ツールを実行する必要がありますか?

OpenCode と OpenClaw は、主に、リポジトリ内で動作するコーディングエージェントか、チャットアプリ、ツール、スケジュールされたアクションを接続する常時稼働のアシスタントゲートウェイのどちらかを選択することになります。

ニック・シルバー 2026 年 4 月 30 日 14 分で読めます

opencode とクロードコードでは、ローカル AI コーディングとクラウド AI コーディングをカバーし、セルフホスト型コントロールとホスト型の利便性を比較します。

AI と機械学習

OpenCode と Claude Code: ホスト型の利便性かセルフホスト型のコントロールか?

OpenCode と Claude Code の比較は、結局のところ、マネージド AI コーディングエージェントと独自の環境で実行できるコーディングエージェントのどちらを選択するかということになります。 Claude Code は始めるのが簡単です。

ニック・シルバー 2026 年 4 月 28 日 13 分で読めます

クロードコードの代替案は、ターミナル、IDE、クラウド、セルフホスト型ワークフローにわたる開発者に最適な AI ツールをカバーしています。

AI と機械学習

開発者向けのクロードコードの代替案: ターミナル、IDE、セルフホスト、クラウドワークフローに最適

Claude Code は依然として最強のコーディングエージェントの 1 つですが、多くの開発者は現在、固執するのではなく、ワークフロー、モデルアクセス、長期的なコストに基づいてツールを選択しています。

ニック・シルバー 2026 年 4 月 27 日 20 分で読めます

導入する準備はできていますか? 月額 $2.48 から。

2008 年以降の独立したクラウド。AMD EPYC、NVMe、40 Gbps。 14日間の返金。

VPS を導入するすべてのプランを見る

H100 対 RTX 4090: AI ワークロードのベンチマーク

クイックアンサー: AI ワークロード向けの H100 と RTX 4090

考慮すべき唯一のベンチマーク質問: VRAM に適合するものは何ですか?

帯域幅: HBM が違うと感じる理由

スペックスナップショット

信頼性の高い H100 と RTX 4090 のベンチマーク

Llama.cpp スタイルの推論スナップショット

MLPerf で追加され、フォーラム ベンチマークでは追加されないもの

コスト、時間、機会コスト

中小規模モデルの毎週の微調整

実際の同時実行性によるサービスの提供

期限のある大規模なトレーニング ジョブ

ソフトウェアと運用: ドライバー、安定性、マルチユーザー、サポート

ワークロードに応じてどれを選択すべきか

ローカル LLM ビルダー (ソロ開発 / 学生)

スタートアップ ML エンジニア (MVP を提供)

応用研究者（実験多数）

プロダクション / プラットフォーム チーム (マルチテナント サービス)

実用的な中間パス: まず GPU をレンタルしてからコミットする

ベンチマーク チェックリスト: 30 分で独自のベンチマーク チェックリストを実行する

よくある質問

RTX 4090 は機械学習に適していますか?

RTX 4090 は 1 枚のカードで 70B クラスの LLM を実行できますか?

VRAM が LLM の動作にとってそれほど重要なのはなぜですか?

MIG とは何ですか?また、プラットフォーム チームが MIG を好む理由は何ですか?

どのベンチマークを信頼すればよいでしょうか?

読み続けてください。

OpenCode と OpenClaw: どちらのセルフホスト型 AI ツールを実行する必要がありますか?

OpenCode と Claude Code: ホスト型の利便性かセルフホスト型のコントロールか?

開発者向けのクロード コードの代替案: ターミナル、IDE、セルフホスト、クラウド ワークフローに最適

導入する準備はできていますか? 月額 $2.48 から。

MLPerf で追加され、フォーラムベンチマークでは追加されないもの

期限のある大規模なトレーニングジョブ

プロダクション / プラットフォームチーム (マルチテナントサービス)

ベンチマークチェックリスト: 30 分で独自のベンチマークチェックリストを実行する

MIG とは何ですか?また、プラットフォームチームが MIG を好む理由は何ですか?

開発者向けのクロードコードの代替案: ターミナル、IDE、セルフホスト、クラウドワークフローに最適