Sleva 50% všechny plány, časově omezená nabídka. Od $2.48/mo
11 min zbývá
Umělá inteligence a strojové učení

H100 vs RTX 4090: Benchmark pro AI workloady

Nick Stříbro By Nick Stříbro 11 minut čtení Aktualizováno 28. ledna 2026
Testovací sestava vedle sebe: věž RTX 4090 a serverová deska ve stylu H100 zaznamenávající metriky v reálném čase, porovnávající propustnost H100 vs RTX 4090 na grafech a měření stopkami.

Pokud se rozhodujete H100 versus RTX 4090 Pro AI platí, že většina „benchmarků" nehraje roli, dokud se váš model a cache skutečně nevejdou do VRAM. RTX 4090 je ideální volbou pro práci na jednom GPU, která se vejde do 24 GB. 

H100 je volba, když potřebujete větší modely, vyšší souběžnost, izolaci více uživatelů nebo chcete strávit méně času laděním paměti. 

Rozeberu vám to podle typu zatížení, ukážu vám, jaké benchmarky existují, a pak vám dám rychlý plán testů, které si můžete spustit na své infrastruktuře.

Rychlý přehled: H100 vs RTX 4090 pro AI úlohy

H100 vyniká při trénování velkých modelů a jejich nasazování, protože nabízí velké HBM paměť, velmi vysokou šířku pásma paměti, NVLink a MIG pro izolaci. RTX 4090 je lepší pro "Potřebuji výborný výkon jednoho GPU za lepší cenu" pokud se váš workload vejde do 24 GB bez neustálých kompromisů. Specifikace a funkcionalita platformy jsou v tom poměrně jasné.

Tady je rychlý seznam podle typu uživatele:

  • Lokální vývojář LLM (samotný vývojář / student): RTX 4090 dokud se VRAM nestane úzkým místem.
  • ML inženýr ve startupu (vývoj MVP): RTX 4090 pro počáteční nasazování a ladění modelů, H100 jakmile potřebujete stabilní souběžnost nebo větší modely.
  • Prováděcí výzkumný pracovník (spoustu experimentů): H100 pokud neustále narazíte na OOM, limity dávek nebo dlouhé kontexty.
  • Produkční / platformní tým (pronajímání více tenantů): H100 pro dělení MIG, větší rezervu a plynulejší škálování.

S tímto rámcem se zbytek tohoto článku zabývá limity, se kterými se lidé setkávají v praxi, a tím, jak se benchmarkové výsledky shodují s realitou.

Jediná benchmark otázka, kterou stojí za to zvážit: Co se musí vejít do VRAM?

Většina diskusí o H100 versus RTX 4090 jsou technicky argumenty o VRAM. Při LLM práci se VRAM zabírá váhy, aktivace během tréninku, stavy optimizéru během trénování a KV mezipaměť během inference. Ta poslední je ta, kterou lidé obvykle nečekají, protože roste s délkou kontextu a souběžností.

Tabulka níže je záměrně vysokoúrovňová, protože přesné rozdělení závisí na framework, přesnosti a overheadu.

Tady je pohled "vejde se to bez problémů?":

Pracovní zatížení Typická realita jednoho GPU na RTX 4090 (24 GB) Typická realita jednoho GPU na H100 (80–94 GB)
Inference modelu LLM o velikosti 7B (FP16 / BF16) Obvykle v pořádku Pohodlný prostor
Inference modelu LLM o velikosti 13B Často těsné, závisí na kontextu Obvykle v pořádku
Inference v třídě 70B Vyžaduje silnou kvantizaci/offload Mnohem reálističtější
SD/SDXL inference + malé dávky Obvykle v pořádku Dostačující, plus více prostoru pro dávkové zpracování
Obsluha s vyšší souběžností Tlak KV cache se zobrazuje rychle Více místa, větší stabilita pod zátěží

Pokud chcete širší seznam GPU (ne jen tyto dva), podívejte se na náš Nejlepší GPU pro strojové učení v roce 2025 je praktická referenční tabulka pro VRAM a šířku pásma paměti napříč běžnými AI GPU.

Jakmile víte, že vaše zatížení vyhovuje, dál už záleží hlavně na šířce pásma paměti, která určuje, jak plynule se všechno chová.

Šířka pásma: Proč se HBM chová jinak

Velká část diskuzí o výkonu AI se točí kolem výpočetních špiček, ale transformery jsou extrémně citlivé na přenosy dat v paměti. Výhoda H100 spočívá v kombinaci velkých HBM zásobníků s velmi vysokou paměťovou propustností, doplněnou o NVLink propustnost a MIG dělení na straně platformy. 

Přehled specifikací

Specifikace vám GPU nezvolí automaticky, ale vysvětlují, proč stejná úloha na jedné kartě funguje snadno a na druhé je těsná. Tento přehled ukazuje, co nejvíc ovlivňuje chování LLM při trénování, inferencí a servírování.

Specifikace H100 (SXM / NVL) RTX 4090
VRAM 80 GB / 94 GB 24 GB
Propustnost paměti 3,35–3,9 TB/s GDDR6X (kapacita omezena na 24 GB)
Mezipropojeníí NVLink + PCIe Gen5 PCIe (spotřebitelská platforma)
Vícenásobná instance Až 7 instancí MIG Není k dispozici

Spec reference: NVIDIA H100, NVIDIA RTX 4090.

Co to znamená v praxi:

  • Když zvyšujete velikost dávky nebo délku kontextu, H100 zůstává stabilní déle, než se dostanete do situace, kdy musíte dělat kompromisy.
  • Pokud zpracováváte mnoho požadavků najednou, H100 vám dává více prostoru pro paměť, takže se nesetkáte s nestabilní latencí v ocasech tak rychle.
  • Pokud váš projekt běží především na jednoho uživatele, jednoho modelu a pracuje s menším kontextem, RTX 4090 vám bude připadat rychlá a stačí vám.

Šířka pásma ale nestojí za dobrý benchmark. Vysvětluje jen, proč si dva GPU mohou být podobní v úzkém testu, aby se pak v reálném zatížení lišili.

Spolehlivé porovnání výkonu H100 vs RTX 4090 

H100 vs RTX 4090 benchmark pro AI úlohy s grafy tokenů za sekundu a výsledky inference na monitoru vedle desktopů GPU a serverové desky.

Benchmarky nejsou všechny stejné, a proto se neustále stává, že "moje čísla neodpovídají tvým". Proto H100 versus RTX 4090, je užitečné rozdělit benchmark na dvě varianty:

  • Lane A (komunita na první místě): llama.cpp-style tokens/sec tests and simple inference scripts.
  • Linka B (standardizované sady): Výsledky v souladu s MLPerf Training a MLPerf Inference, které se zaměřují na opakovatelná pravidla.

Snímek inferenční analýzy ve stylu Llama.cpp

Tímto testem si lidé experimentují doma a pak o něm tři dny hádají. Je užitečný, protože odráží řetězec nástrojů, který používá mnoho vývojářů, ale snadno se dá špatně interpretovat, když ignorujete kontext a přesnost. 

Veřejná srovnění ve stylu llama.cpp RTX 4090 vypadá velmi dobře na menších modelech a kvantovaných spuštěních, zatímco velké modely s vyšší přesností snadno překročí limit VRAM.

Zde je vzor, který byste měli očekávat:

Model GPU Typický výsledek
třída 7B RTX 4090 Vysoký počet tokenů za sekundu, plynulá inference pro jednoho uživatele
Třída 13B RTX 4090 Stále dobré, ale kontext a overhead začínají hrát roli
třída 70B RTX 4090 Bez agresivní kvantizace nebo offloadingu se to nevejde čistě
třída 70B H100 Mnohem realističtější ponechat v paměti a provozovat spolehlivě

Smyslem tabulky není "4090 je špatná" nebo "H100 je magic". Jde o to, že limit VRAM určuje, kolik můžete ponechat v paměti, a to ovlivňuje rychlost, stabilitu a množství seřizování, které budete dělat.

Pokud neustále zkracujete délku kontextu jen abyste přežili, v tu chvíli se toto srovnání přestává být teoretické.

Co přidává MLPerf oproti benchmarkům na fórech

MLPerf existuje proto, že "náhodné skripty a dohadování" nefunguje, jakmile se rozhodujete o nákupu za tisíce dolarů. MLCommons přidal novější generativní AI workloady postupem času a MLPerf je navržen tak, aby byly výsledky lépe srovnatelné mezi systémy.

Na straně trénování zpráva NVIDIA MLPerf Training v5.1 je dobrým příkladem, jak prodejci hlásí čas na trénování s detaily o prostředí podání a pravidlech benchmarku, která dodržují.

Tato oblast vám neřekne, jak se vaše soukromé prompty chovají, ale je to kontrola rozumnosti pro škálování na úrovni systému a "jak si tato třída hardwaru vede podle pravidel".

Teď si pojďme pohovořit o částí, která nejvíce ovlivňuje nákupy, a tou je čas a peníze strávené na dokončení práce.

Náklady, čas a oportunitní náklady

Technik instaluje GPU do serverové racku během nastavování H100 vs RTX 4090, přípravy hardwaru pro benchmarky H100 a testování AI výkonu RTX 4090.

Hodně H100 versus RTX 4090 rozhodnutí se často rámují jako "nákupní cena vs cena pronájmu". To je zřídka správný rámec. Lepší rámec je: kolik hodin vám trvá vytvořit model, který můžete skutečně používat, a kolik času ztrácíte bojem s omezeními?

Tři běžné scénáře ukazují kompromisy velmi jasně.

Týdenní doladění na malých až středně velkých modelech

Pokud vaše spuštění zůstanete v 24 GB bez neustálých kompromisů, cesta s 4090 se zdá skvělá. Iterujete rychle, nepotřebujete plánovat čas na clusteru a vaše nastavení je jednoduché. Pokud se každé spuštění obrátí na "snížit batch, zkrátit kontext, zkusit znovu", H100 je mnohem rozumnější volba, navzdory vyšším nákladům.

Skutečná souběžnost na vysoké úrovni

Souběžnost rychle zvyšuje tlak na KV cache. Tady se hodí rezerva výkonu H100 a možnosti nastavení platformy, zvlášť když potřebujete předvídatelnou latenci. 

Pokud si nejste jistí, zda je server GPU vůbec správný pro vaše nasazení, náš GPU VPS vs. CPU VPS přehled vám pomůže namapovat zátěž na správný typ infrastruktury, než strávíte čas optimalizací věci, která to nezaslouží.

Větší trénovací úlohy s termíny

Jakmile překročíte fázi jednoho člověka a jednoho serveru, chcete se soustředit na věci, které se opravdu počítají: stabilní prostředí, méně chyb, méně času straveného hlídáním infrastruktury. To je přesně to, na co je H100 navržen.

Pokud si nejste jistí ani po této sekci, dalším krokem není další čtení. Podívejte se, jak se vaše zásobník chová v praxi, včetně kompatibility ovladačů a víceúživatelských zátěží.

Software a provoz: ovladače, stabilita, víceúživatelské prostředí a podpora

To je část, kterou graf srovnávajících benchmarků obvykle přeskakuje, ale je to velká část každodenního provozu.

RTX 4090 je oblíbená, protože je přístupná a rychlá pro řadu úloh AI. Kompromis je ten, že když vaše potřeby rostou, spíše narazíte na omezení paměti a omezení škálování, která nejsou navržena pro sdílená, víceklientská prostředí.

H100 je stavěna pro clustery. MIG je velkým přínosem pro platformní týmy, protože vám umožní rozdělit jeden GPU na izolované části, čímž snížíte problémy s "hlučnými sousedy" a zjednodušíte plánování kapacity. Oficiální specifikace H100 od NVIDIA uvádí až 7 instancí MIG v závislosti na formátu.

Pokud je vaše zátěž osobní a lokální, můžete s řadou 4090 fungovat dlouhodobě. Pokud je vaše zátěž víceúživatelská a určená zákazníkům, H100 je bezpečnější cesta.

Takže, v souhrnu, kdo by měl koupit co?

Kterou byste měli vybrat pro vaši zátěž

Případy použití pro benchmarky H100 a výkon AI RTX 4090: studentský počítač, startup rack, výzkumná stanice a servery platformních týmů.

Pro H100 versus RTX 4090, správná volba je nakonec ta, která vám odstraní největší překážky.

Lokální tvůrce s LLM (samostatný vývojář / student)

Vyberte si RTX 4090, pokud pracujete převážně v rozsahu 7B–13B, spouštíte kvantizované odvozování, experimentujete s RAG nebo pracujete na SDXL. Přejděte na vyšší model, až budete trávit více času řešením paměti než budováním toho, co jste si původně vytyčili.

Startup ML inženýr (nasazování MVP)

Pokud je vaše MVP jeden model s mírným provozem a pohodlně se vejde, 4090 je skvělý začátek. Pokud potřebujete stabilní latenci při špičkách, vyšší souběžnost nebo více zátěží na jeden host, H100 je klidnější volba.

Aplikovaný výzkumný pracovník (spoustu experimentů)

Pokud jste často nuceni dělat kompromisy, jako zmenšení velikosti dávky nebo řešit problémy s přesností, H100 vám umožní čistší experimenty a méně neúspěšných pokusů.

Produkční tým / platformní tým (vícetenantní obsluha)

H100 je jednoznačná volba, především proto, že MIG a vyšší rezerva výkonu zjednodušují plánování kapacity a v podstatě omezují rozsah dopadů při náhlém nárůstu.

Pokud stále nechcete kupovat hardware, pronájem je nejlepší další krok.

Praktická střední cesta: Nejdřív si pronajměte GPU, potom se rozhodněte

Nejčistší způsob, jak si být jistý H100 versus RTX 4090 je spuštění tvůj model, tvůj příkazy a tvůj délku kontextu na obou třídách hardwaru, pak porovnejte tokeny za sekundu a latenci chvostu pod zátěží. 

Proto jsme vytvořili Cloudzy GPU VPS, protože si můžete obstarat server GPU za méně než minutu, nainstalovat si svůj stack s plným přístupem root a nemusíte se spoléhat na benchmark od někoho jiného.

Co dostanete s našimi plány GPU a VPS:

  • Dedikované GPU NVIDIA GPU (včetně možností třídy RTX 4090 a A100), aby se vaše výsledky neposunuly kvůli rušným sousedům.
  • Síťování až 40 Gbps na všech plánech GPU, což je důležité při stahování datasetů, workflow na více uzlech a rychlém přesunu artefaktů.
  • NVMe SSD úložiště, plus DDR5 RAM a vysokofrekvenční možnosti CPU na všech úrovních, aby zbytek serveru nebrzdil GPU.
  • DDoS ochrana a 99,95% dostupnost, aby dlouhé úlohy nezemřely náhodným internetovým šumem.
  • Hodinová fakturace (praktické pro krátké benchmarkové sprouty) a 14denní záruka vrácení peněz pro testování bez rizika.

Spusťte stejný benchmark nejdřív na plánu RTX 4090, pak jej zopakujte na plánu třídy A100, až budete pracovat s většími kontexty, vyšší souběžností nebo většími modely. Po té se volba mezi H100 versus RTX 4090 obvykle vyjasní z vašich vlastních logů.

Benchmark checklist: Spusťte si ho za 30 minut

Pokud chcete rozhodnutí, které si můžete obhájit, sesbírejte čtyři čísla ze stacku, který opravdu budete nasazovat:

  • Tokeny/sec na vaší cílové délce kontextu
  • latence p95 na vaší očekávané souběžnosti
  • Volný VRAM během vrcholové fáze
  • Náklady na jeden dokončený běh od startu do artefaktu

Minimální zkušební test s vLLM vypadá takto:

pip install vllm transformers accelerate

python -m vllm.entrypoints.api_server \

  --model meta-llama/Llama-3-8B-Instruct \

  --dtype float16 \

  --max-model-len 8192

Pokud chcete vědět, co si opravdu pronajímáte, náš příspěvek Co je GPU VPS? vysvětluje rozdíl mezi dedikovaným přístupem GPU, sdílením vGPU a tím, co si ověřit před výběrem plánu.

 

Často kladené otázky

Je RTX 4090 vhodný pro strojové učení?

Ano, pokud se vaše úloha vejde do 24 GB. Je to solidní jednoduchý GPU pro spoustu vývojářských a výzkumných projektů.

Zvládne RTX 4090 spustit 70B-třídní LLM na jedné kartě?

Ne bez problémů při vyšší přesnosti. S kvantizací a offloadingem to jde, ale strop 24 GB vás brzy donutí dělat kompromisy.

Proč je VRAM tak důležitý pro práci s LLM?

Jakmile se váhy a cache nevejdou do paměti, začínáte stránkovat nebo offloadovat, a propustnost i latence se stávají nepředvídatelné. Větší VRAM a vyšší šířka pásma udržují více úlohy v paměti.

Co je MIG a proč se mu líbí platformovým týmům?

MIG dělí jeden H100 na izolované GPU instance, což pomáhá s plánováním multi-tenant a snižuje negativní efekt hlučných sousedů.

Kterému benchmarku mám věřit?

Věřte především vlastním testům. Standardizované sady jako MLPerf použijte jako ověření chování systému a k porovnání.

Sdílet

Další z blogu

Čtěte dál.

opencode vs openclaw – srovnání AI coding agenta pro repozitáře s autonomní AI agent gateway OpenClaw.
Umělá inteligence a strojové učení

OpenCode vs OpenClaw: Který self-hosted AI nástroj si vybrat?

OpenCode vs OpenClaw je v podstatě volba mezi kódovacím agentem, který pracuje přímo ve vašem repozitáři, a stále dostupnou asistentní bránou, která propojuje chatovací aplikace, nástroje a plánované úlohy.

Nick StříbroNick Stříbro 14 minut čtení
opencode vs claude code: srovnání lokální AI pro kódování s cloudovou alternativou – vlastní správa oproti hostované pohodlnosti.
Umělá inteligence a strojové učení

OpenCode vs Claude Code: Hostovaná pohodlnost, nebo kontrola na vlastním serveru?

OpenCode vs Claude Code je v jádru volba mezi spravovaným AI kódovacím agentem a agentem, kterého spustíte ve vlastním prostředí. Claude Code je jednodušší na rozjezd, protože

Nick StříbroNick Stříbro Čtení na 13 minut
Přehled alternativ ke Claude Code: nejlepší AI nástroje pro vývojáře – pro terminál, IDE, cloudová i vlastní prostředí.
Umělá inteligence a strojové učení

Alternativy ke Claude Code pro vývojáře: nejlepší nástroje pro terminál, IDE, self-hosted a cloudové prostředí

Claude Code patří stále mezi nejsilnější kódovací agenty, ale spousta vývojářů teď vybírá nástroje podle pracovního postupu, přístupu k modelům a dlouhodobých nákladů, místo aby zůstávali u

Nick StříbroNick Stříbro 20 minut čtení

Připraveni nasadit? Od 2,48 $/měsíc.

Nezávislý cloud od roku 2008. AMD EPYC, NVMe, 40 Gbps. Vrácení peněz do 14 dní.