H100 versus RTX 4090: benchmark voor AI-workloads

Als je besluit H100 versus RTX 4090 Houd er voor AI rekening mee dat de meeste ‘benchmarks’ er niet toe doen totdat uw model en cache daadwerkelijk in VRAM passen. RTX 4090 is de beste plek voor werk met één GPU dat binnen de 24 GB blijft.

H100 is wat u zoekt als u grotere modellen, hogere gelijktijdigheid, isolatie voor meerdere gebruikers of minder tijd nodig heeft voor geheugengymnastiek.

Ik zal het opsplitsen in werklasten, benchmarktypen laten zien en u vervolgens een snel testplan geven dat u op uw eigen stapel kunt uitvoeren.

Snel antwoord: H100 versus RTX 4090 voor AI-workloads

H100 wint voor training op grote modellen en serieuze dienstverlening omdat het grote HBM-pools, een zeer hoge geheugenbandbreedte, NVLink en MIG voor isolatie biedt. RTX4090 is beter voor "Ik heb geweldige single-GPU-snelheid nodig tegen een betere prijs" zolang uw werklast zonder constante compromissen in 24 GB past. Specificaties en platformfuncties maken dit vrij eenvoudig.

Hier is de snelle keuzelijst per persona:

Lokale LLM-bouwer (solo-ontwikkelaar / student): RTX 4090 totdat VRAM het knelpunt wordt.
Startup ML Engineer (die een MVP verzendt): RTX 4090 voor bediening en fine-tuning in een vroeg stadium, H100 als je stabiele gelijktijdigheid of grotere modellen nodig hebt.
Toegepast onderzoeker (veel experimenten): H100 als u OOM, batchlimieten of lange contexten blijft gebruiken.
Productie-/platformteam (bediening voor meerdere huurders): H100 voor MIG-slicing, hogere hoofdruimte en soepeler schaling.

Met dat kader gaat de rest van dit artikel over de grenzen waar mensen in het echte leven tegenaan lopen, en hoe de benchmarkcijfers daarmee in lijn liggen.

De enige benchmarkvraag die u moet overwegen: wat moet er in VRAM passen?

De meeste topics over H100 versus RTX 4090 zijn technisch gezien VRAM-argumenten. Bij LLM-werk wordt VRAM opgegeten gewichten, activaties tijdens de training, optimalisatie toestanden tijdens de opleiding, en de KV-cache tijdens gevolgtrekking. Dat laatste is degene die mensen niet echt verwachten, omdat het groeit met de lengte van de context en de gelijktijdigheid.

De onderstaande tabel is opzettelijk van een hoog niveau gemaakt, omdat de exacte pasvorm afhangt van het raamwerk, de precisie en de overhead.

Hier is de "past het zonder drama?" weergave:

Werklast	Typische realiteit met één GPU op RTX 4090 (24 GB)	Typische realiteit met één GPU op H100 (80-94 GB)
7B LLM-gevolgtrekking (FP16 / BF16)	Meestal prima	Comfortabele hoofdruimte
13B LLM-gevolgtrekking	Vaak strak, afhankelijk van de context	Meestal prima
70B-klasse gevolgtrekking	Heeft zware quant/offload nodig	Veel realistischer
SD/SDXL-gevolgtrekking + kleine batch	Meestal prima	Prima, plus meer batchruimte
Serveren met een hogere gelijktijdigheid	KV-cachedruk wordt snel weergegeven	Meer ruimte, stabieler onder belasting

Als je een bredere GPU-shortlist wilt (niet alleen deze twee), dan is onze samenvatting van de Beste GPU's voor Machine Learning in 2025 is een handige referentietabel voor VRAM en geheugenbandbreedte voor gangbare AI GPU's.

Als u eenmaal weet dat uw werklast past, is het volgende dat bepaalt hoe “soepel” het voelt de geheugenbandbreedte.

Bandbreedte: waarom HBM zich anders voelt

Veel gepraat over AI-prestaties gaat over rekenpieken, maar transformatoren zijn extreem gevoelig voor geheugenbewegingen. Het voordeel van de H100 is dat het grote HBM-pools combineert met een zeer hoge geheugenbandbreedte, plus NVLink-bandbreedte en MIG-partitionering aan de platformzijde.

Specificaties momentopname

De specificaties zullen niet de GPU voor je uitkiezen, maar ze leggen uit waarom dezelfde werklast op de ene kaart gemakkelijk aanvoelt en op de andere krap is. Deze momentopname laat zien wat de LLM-training, gevolgtrekking en servicegedrag het meest beïnvloedt.

Spec	H100 (SXM / NVL)	RTX4090
VRAM	80 GB / 94 GB	24 GB
Geheugenbandbreedte	3,35–3,9 TB/s	GDDR6X (capaciteit beperkt tot 24 GB)
Onderling verbinden	NVLink + PCIe Gen5	PCIe (consumentenplatform)
Meerdere exemplaren	Maximaal 7 MIG-instanties	N.v.t

Specificaties referenties: NVIDIA H100, NVIDIA RTX4090.

Wat dit in de praktijk betekent:

Als u de batchgrootte of contextlengte probeert te vergroten, blijft H100 meestal langer stabiel voordat u tot afwegingen wordt gedwongen.
Als je veel verzoeken tegelijk afhandelt, heeft de H100 meer ‘geheugenademruimte’, zodat je niet zo snel last krijgt van dubieuze staartlatentie.
Als uw werk voornamelijk uit één gebruiker, één model en een bescheiden context bestaat, voelt de 4090 vaak snel en bevredigend aan.

Bandbreedte vervangt echter geen goede benchmarking. Het verklaart alleen maar waarom twee GPU's er bij een beperkte test dichtbij kunnen uitzien en vervolgens onder echte belasting uit elkaar kunnen drijven.

Betrouwbare H100 versus RTX 4090-benchmarks

H100 versus RTX 4090 benchmark voor AI-workloads, met grafieken van tokens/sec en gevolgtrekkingsresultaten op een monitor naast desktop-GPU's en een serverbord.

Benchmarks zijn niet allemaal hetzelfde, en daarom komt ‘mijn cijfers niet overeen met die van jou’ voortdurend voor. Voor H100 versus RTX 4090helpt het om benchmarks in twee rijstroken te splitsen:

Laan A (gemeenschapsgevoel): llama.cpp-style tokens/sec tests and simple inference scripts.
Baan B (gestandaardiseerde suites): MLPerf Training- en MLPerf Inference-stijlresultaten, die zich richten op herhaalbare regels.

Momentopname van inferentie in Llama.cpp-stijl

Dit is het soort test dat mensen thuis uitvoeren en vervolgens drie dagen lang discussiëren. Het is nuttig omdat het een ‘echte gereedschapsketen’ weerspiegelt die veel bouwers gebruiken, maar het is ook gemakkelijk verkeerd te lezen als je de pasvorm en precisie negeert.

Openbare vergelijkingen in lama.cpp-stijl laten zien dat RTX 4090 het erg goed doet op kleinere modellen en gekwantiseerde runs, terwijl grote modellen met hogere precisie voorbij het VRAM-plafond blazen.

Dit is het patroon dat je mag verwachten:

Model	GPU	Typisch resultaat
7B klasse	RTX4090	Hoge tokens/sec, soepele gevolgtrekking voor één gebruiker
13B klasse	RTX4090	Nog steeds goed, maar context en overhead beginnen er toe te doen
70B-klasse	RTX4090	Past niet netjes zonder agressieve quant/offload
70B-klasse	H100	Veel realistischer om ingezetene te blijven en betrouwbaar te dienen

Het punt van deze tabel is niet ‘4090 slecht’ of ‘H100 magie’. Het is dat het VRAM-plafond bepaalt hoeveel je kunt blijven gebruiken, en dat heeft invloed op de snelheid, stabiliteit en de hoeveelheid sleutelwerk dat je doet.

Als je voortdurend de contextlengte scheert om in leven te blijven, is dat het moment waarop deze vergelijking niet langer theoretisch is.

Wat MLPerf toevoegt wat forumbenchmarks niet doen

MLPerf bestaat omdat ‘willekeurige scripts en vibraties’ niet meer werken als je een beslissing van enkele duizenden dollars neemt. MLCommons heeft toegevoegd nieuwere generatie AI-workloads in de loop van de tijd, en MLPerf is ontworpen om de resultaten tussen systemen beter vergelijkbaar te maken.

Aan de trainingskant NVIDIA's MLPerf Training v5.1-artikel is een goed voorbeeld van hoe leveranciers de time-to-train rapporteren met details over de indieningsomgeving en de benchmarkregels die ze volgen.

Deze baan vertelt u niet hoe uw privéprompts zich gedragen, maar het is een controle op systeemniveau en “hoe deze klasse hardware onder regels presteert.”

Laten we het nu hebben over het deel dat de meeste invloed heeft op de aankopen, namelijk de tijd en het geld dat wordt besteed aan het voltooien van het werk.

Kosten, tijd en opportunitykosten

Technicus die een GPU in een rackserver installeert tijdens de H100 versus RTX 4090-installatie, hardware voorbereidt voor H100-benchmarks en RTX 4090 AI-prestatietests.

Veel H100 versus RTX 4090 beslissingen worden ingelijst als ‘aankoopprijs versus huurprijs’. Dat is zelden het juiste frame. Een beter frame is: hoeveel uur kost het je om een model te maken dat je daadwerkelijk kunt gebruiken, en hoeveel tijd verbrand je met het bestrijden van beperkingen?

Drie veel voorkomende scenario's laten de afwegingen vrij duidelijk zien.

Wekelijkse fijnafstemming op kleine tot middelgrote modellen

Als uw runs binnen de 24 GB blijven zonder voortdurend compromissen te sluiten, voelt het 4090-pad geweldig. U itereert snel, u hoeft geen clustertijd te plannen en uw installatie is eenvoudig. Als elke run verandert in ‘lagere batch, context verwijderen, opnieuw proberen’, is H100 een veel verstandiger idee, ondanks de hogere kosten.

Presenteren met echte gelijktijdigheid

Gelijktijdigheid verhoogt de KV-cachedruk snel. Dit is waar de speelruimte en platformbediening van de H100 zich terugbetalen, vooral als je voorspelbare latentie nodig hebt.

Als u nog steeds besluit of een GPU-server wel de juiste vorm of geschiktheid heeft voor uw implementatie, onze GPU-VPS versus CPU-VPS Uitsplitsing is een handige manier om de werklast aan het infrastructuurtype toe te wijzen voordat u tijd besteedt aan het optimaliseren van de verkeerde zaken.

Grotere trainingsbanen met deadlines

Zodra je verder gaat dan één persoon, één hokje, zijn de saaie dingen het soort dingen waar je je op wilt concentreren, zaken als stabiele omgevingen, minder faalmodi en minder tijd die je besteedt aan wat eigenlijk babysitten is. Dat is precies waar de H100 voor is ontworpen.

Als je na dit gedeelte nog steeds verscheurd bent, is de volgende stap niet meer lezen. Er wordt gekeken naar hoe uw stack zich in de praktijk gedraagt, inclusief wrijving tussen stuurprogramma's en werklasten voor meerdere gebruikers.

Software en bewerkingen: stuurprogramma's, stabiliteit, meerdere gebruikers en ondersteuning

Dit is het deel dat de meeste benchmarkgrafieken overslaan, maar het is een groot deel van het dagelijks leven.

RTX 4090 is populair omdat het toegankelijk en snel is voor veel AI-workflows. Het nadeel is dat zodra uw gebruiksscenario groeit, de kans groter is dat u grenzen rond geheugenplafonds en schaalpatronen tegenkomt die niet zijn gebouwd voor gedeelde omgevingen met meerdere tenants.

H100 is gebouwd voor clusters. MIG is een groot probleem voor platformteams, omdat je hiermee één GPU in geïsoleerde plakjes kunt verdelen, waardoor problemen met 'luidruchtige buren' worden verminderd en de capaciteitsplanning veel eenvoudiger wordt. NVIDIA's officiële H100-specificaties vermelden maximaal 7 MIG-instanties, afhankelijk van de vormfactor.

Als uw werklast persoonlijk en lokaal is, kunt u lange tijd met plezier aan de 4090-kant leven. Als uw werklast meerdere gebruikers en klantgericht is, is H100 de veiligere manier.

Kortom, wie moet wat kopen?

Welke moet u kiezen voor uw werklast

Gebruiksscenario's voor H100-benchmarks en RTX 4090 AI-prestaties: studentendesktop, startup-rack, onderzoekswerkstation en platformteamservers.

Voor H100 versus RTX 4090is de juiste keuze uiteindelijk degene die uw grootste hindernissen wegneemt.

Lokale LLM-bouwer (solo-ontwikkelaar / student)

Kies RTX 4090 als je je vooral in het 7B-13B-bereik bevindt, gekwantiseerde gevolgtrekkingen uitvoert, aan RAG sleutelt of aan SDXL werkt. Ga omhoog zodra u meer tijd besteedt aan het werken aan het geheugen dan aan het bouwen van het ding dat u wilde bouwen.

Startup ML Engineer (een MVP verzenden)

Als uw MVP een enkel model is met matig verkeer en comfortabel past, is 4090 een sterk begin. Als je een stabiele latentie bij pieken, een hogere gelijktijdigheid of meerdere workloads per host nodig hebt, is H100 het rustiger pad.

Toegepast onderzoeker (veel experimenten)

Als je vaak tot compromissen wordt gedwongen, zoals het terugdringen van de batchgrootte of het uitvoeren van precisiegymnastiek, biedt H100 je schonere experimenten en minder dode runs.

Productie-/platformteam (bediening voor meerdere huurders)

H100 is de makkelijke keuze, vooral omdat MIG en een grotere speelruimte de capaciteitsplanning eenvoudiger maken en in feite de straalradius verkleinen als er iets piekt.

Als je nog steeds geen hardwaredollars wilt uitgeven, is huren de beste volgende stap.

Een praktische middenweg: eerst GPU's huren en dan committeren

De schoonste manier om zich te vestigen H100 versus RTX 4090 is om te rennen jouw model, jouw aanwijzingen, en jouw contextlengte op beide hardwareklassen, en vergelijk vervolgens tokens/sec en staartlatentie onder belasting.

Dat is precies waarom we gebouwd hebben Cloudzy GPU-VPS, aangezien u binnen een minuut een GPU-box kunt krijgen, installeert u uw stack met volledige root en stopt u met raden op basis van de benchmark van iemand anders.

Dit is wat u krijgt met onze GPU VPS-abonnementen:

Speciale NVIDIA GPU's (inclusief opties uit de RTX 4090- en A100-klasse), zodat uw resultaten niet afwijken van luidruchtige buren.
Tot 40 Gbps netwerken op alle GPU-abonnementen, wat een groot probleem is voor het ophalen van datasets, workflows met meerdere knooppunten en het snel verplaatsen van artefacten.
NVMe SSD-opslag, plus DDR5-RAM en hoogfrequente CPU-opties op alle niveaus, zodat de rest van de doos de GPU niet naar beneden sleept.
DDoS-bescherming en een 99,95% uptime, zodat lange klussen niet teniet worden gedaan door willekeurige internetruis.
Facturering per uur (handig voor korte benchmarksprints) en a 14 dagen geld-terug-garantie voor tests met een laag risico.

Voer dezelfde benchmarkchecklist eerst uit op een RTX 4090-abonnement en herhaal dit vervolgens op een A100-klasse-abonnement zodra u grotere contexten, hogere gelijktijdigheid of grotere modellen wilt pushen. Daarna kiezen tussen H100 versus RTX 4090 wordt meestal duidelijk uit uw eigen logbestanden.

Benchmarkchecklist: voer uw eigen test uit in 30 minuten

Als je een beslissing wilt die je kunt verdedigen, pak dan vier nummers van de exacte stapel die je wilt verzenden:

Tokens/sec op de lengte van uw doelcontext
p95 latentie met uw verwachte gelijktijdigheid
VRAM-hoofdruimte tijdens de heetste fase
Kosten per voltooide run van begin tot artefact

Een minimale rooktest met vLLM ziet er als volgt uit:

pip install vllm transformers accelerate

python -m vllm.entrypoints.api_server \

  --model meta-llama/Llama-3-8B-Instruct \

  --dtype float16 \

  --max-model-len 8192

Als je een duidelijk idee wilt van wat je echt huurt, lees dan ons bericht op Wat is een GPU-VPS? legt het verschil uit tussen speciale GPU-toegang, vGPU-delen en wat u moet controleren voordat u een abonnement kiest.

Veelgestelde vragen

Is RTX 4090 goed voor machine learning?

Ja, zolang uw werklast binnen 24 GB past. Het is een sterke single-GPU-optie voor veel ontwikkel- en onderzoeksworkflows.

Kan RTX 4090 70B-klasse LLM's op één kaart uitvoeren?

Niet schoon bij hogere precisie. Je kunt het pushen met kwantisering en offload, maar het plafond van 24 GB dwingt snelle afwegingen af.

Waarom is VRAM zo belangrijk voor LLM-werk?

Omdat op het moment dat gewichten en cache niet passen, u begint met paging of offloaden, en uw doorvoer en latentie vaak onvoorspelbaar worden. Groter VRAM en hogere bandbreedte zorgen ervoor dat een groter deel van de werklast aanwezig blijft.

Wat is MIG en waarom vinden platformteams het leuk?

MIG verdeelt één H100 in geïsoleerde GPU-instances, wat de planning van meerdere tenants vergemakkelijkt en de effecten van ruis op de buren vermindert.

Welke benchmark moet ik vertrouwen?

Vertrouw eerst op uw eigen tests. Gebruik gestandaardiseerde suites zoals MLPerf als controle op gedrag op systeemniveau en herhaalbare vergelijkingen.

Meer van de blog

Blijf lezen.

opencode versus openclaw-functie waarbij een repo ai-coderingsagent wordt vergeleken met een OpenClaw autonome ai-agentgateway.

AI en machinaal leren

OpenCode versus OpenClaw: welke zelfgehoste AI-tool moet u gebruiken?

OpenCode versus OpenClaw is meestal een keuze tussen een codeeragent die binnen uw repository werkt en een altijd ingeschakelde assistent-gateway die chat-apps, tools en geplande acties met elkaar verbindt.

Niek Zilver 30 april 2026 14 minuten lezen

opencode versus claude codedekking voor lokale versus cloud AI-codering, waarbij zelfgehoste controle wordt vergeleken met gehost gemak.

AI en machinaal leren

OpenCode versus Claude Code: gehost gemak of zelfgehoste controle?

OpenCode versus Claude Code komt neer op een keuze tussen een beheerde AI-codeeragent en een codeeragent die u in uw eigen omgeving kunt uitvoeren. Claude Code is gemakkelijker om mee te beginnen omdat

Niek Zilver 28 april 2026 13 minuten lezen

claude code-alternatieven omvatten de beste AI-tools voor ontwikkelaars in terminal-, IDE-, cloud- en zelf-gehoste workflows.

AI en machinaal leren

Claude Code-alternatieven voor ontwikkelaars: het beste voor terminal-, IDE-, zelfgehoste en cloudworkflows

Claude Code is nog steeds een van de sterkste codeeragenten die er zijn, maar veel ontwikkelaars kiezen nu tools op basis van workflow, modeltoegang en langetermijnkosten in plaats van op vasthoudendheid.

Niek Zilver 27 april 2026 20 minuten lezen

Klaar om te implementeren? Vanaf $ 2,48/maand.

Onafhankelijke cloud, sinds 2008. AMD EPYC, NVMe, 40 Gbps. 14 dagen geld-terug-garantie.

Implementeer een VPS Bekijk alle abonnementen