Het kiezen van een GPU VPS kan overweldigend zijn als je naar specificatiebladen vol cijfers staart. Het aantal kernen stijgt van 2.560 naar 21.760, maar wat betekent dat?
Een CUDA-kern is een parallelle verwerkingseenheid binnen NVIDIA GPU's die duizenden berekeningen tegelijkertijd uitvoert en alles aanstuurt, van AI-training tot 3D-weergave. In deze handleiding wordt uiteengezet hoe ze werken, hoe ze verschillen van CPU- en Tensor-kernen, en welke kernaantallen overeenkomen met uw behoeften zonder te veel te betalen.
Wat zijn CUDA-kernen?

CUDA-kernen zijn individuele verwerkingseenheden binnen NVIDIA GPU's die instructies parallel uitvoeren. Waar ligt de kerntechnologie van CUDA aan ten grondslag? Beschouw deze eenheden als kleine werkers die tegelijkertijd delen van hetzelfde werk aanpakken.
NVIDIA introduceerde CUDA (Compute Unified Device Architecture) in 2006 om GPU-kracht te gebruiken voor algemeen computergebruik, naast grafische afbeeldingen. De officiële CUDA-documentatie biedt uitgebreide technische details. Elke eenheid voert elementaire rekenkundige bewerkingen uit op getallen met drijvende komma, perfect voor repetitieve berekeningen.
Moderne NVIDIA GPU's verpakken duizenden van deze eenheden in één enkele chip. Consumenten-GPU's van de nieuwste generatie bevatten ruim 21.000 cores datacenter-GPU's gebaseerd op de Hopper-architectuur bieden maximaal 16.896. Deze eenheden werken samen via Streaming Multiprocessors (SM's).

De eenheden voeren SIMT-bewerkingen (Single Instruction, Multiple Threads) uit via parallelle computermethoden. Eén instructie wordt op veel datapunten tegelijk uitgevoerd. Bij het trainen van neurale netwerken of het weergeven van 3D-scènes vinden duizenden soortgelijke bewerkingen plaats. Ze splitsten dit werk op in gelijktijdige stromen en voerden het gelijktijdig uit in plaats van opeenvolgend.
CUDA-kernen versus CPU-kernen: wat maakt ze anders?

CPU's en GPU's lossen problemen op fundamenteel verschillende manieren op. Een moderne server-CPU kan 8-128+ cores hebben die op hoge kloksnelheden draaien. Deze processors blinken uit in sequentiële bewerkingen waarbij elke stap afhangt van het voorgaande resultaat. Ze gaan efficiënt om met complexe logica en vertakkingen.
GPU's draaien deze aanpak om. Ze bevatten duizenden eenvoudigere CUDA-kernen die op lagere kloksnelheden draaien. Deze units compenseren lagere snelheden door parallelliteit. Wanneer er 16.000 samenwerken, overtreft de totale doorvoer de standaard CPU-capaciteit.
CPU's voeren besturingssysteemcode en complexe applicatielogica uit. Terwijl GPU's prioriteit geven aan de doorvoer, resulteert de overhead van taakinitiatie en synchronisatie in een hogere latentie. Parallelle grafische verwerking geeft prioriteit aan het verplaatsen van gegevens. Hoewel het langer duurt voordat ze opstarten, verwerken ze grote datasets sneller dan CPU's.

| Functie | CPU-kernen | CUDA-kernen |
| Aantal per chip | 4-128+ kernen | 2.560-21.760 kernen |
| Kloksnelheid | 3,0-5,5 GHz | 1,4-2,5 GHz |
| Verwerkingsstijl | Opeenvolgende, complexe instructies | Parallelle, eenvoudige instructies |
| Beste voor | Besturingssystemen, taken met één thread | Matrixwiskunde, parallelle gegevensverwerking |
| Latentie | Laag (microseconden) | Hoger (lancering boven het hoofd) |
| Architectuur | Algemeen gebruik | Gespecialiseerd voor repetitieve berekeningen |
Virtuele GPU (vGPU) en Multi-Instance GPU (MIG) technologieën zorgen voor het partitioneren en plannen van bronnen om processors over meerdere gebruikers te verdelen. Met deze opzet kunnen teams het hardwaregebruik maximaliseren via tijdsgebonden delen of speciale hardware-instances, afhankelijk van de configuratie.
Het trainen van neurale netwerken omvat miljarden matrixvermenigvuldigingen. Een GPU met 10.000 eenheden voert niet zomaar 10.000 bewerkingen tegelijkertijd uit; in plaats daarvan beheert het duizenden parallelle threads, gegroepeerd in “warps” om de doorvoer te maximaliseren. Dit enorme parallellisme is de reden waarom deze eenheden een must-know zijn voor AI-ontwikkelaars.
CUDA-kernen versus tensorkernen: het verschil begrijpen

NVIDIA GPU's bevatten twee gespecialiseerde eenheidstypen die samenwerken: standaard CUDA-kernen en Tensor-kernen. Het zijn geen concurrerende technologieën; ze behandelen verschillende delen van de werklast.
Standaardeenheden zijn parallelle processors voor algemene doeleinden die FP32- en FP64-berekeningen, gehele wiskunde en coördinatentransformaties verwerken. Deze kern-CUDA-technologie vormt de basis van GPU-computing en voert alles uit, van natuurkundige simulaties tot gegevensvoorverwerking zonder gespecialiseerde versnelling.
Tensorkernen zijn gespecialiseerde eenheden die exclusief zijn ontworpen voor matrixvermenigvuldiging en AI-taken. Ze zijn geïntroduceerd in de Volta-architectuur van NVIDIA (2017) en blinken uit in FP16- en TF32-precisieberekeningen. De nieuwste generatie ondersteunt FP8 voor nog snellere AI-inferentie.
| Functie | CUDA-kernen | Tensorkernen |
| Doel | Algemeen parallel computergebruik | Matrixvermenigvuldiging voor AI |
| Precisie | FP32, FP64, INT8, INT32 | FP16, FP8, TF32, INT8 |
| Snelheid voor AI | 1x basislijn | 2-10x sneller dan CUDA-kernen |
| Gebruiksgevallen | Gegevensvoorverwerking, traditionele ML | Deep learning-training/gevolgtrekking |
| Beschikbaarheid | Alle NVIDIA GPU's | RTX 20-serie en nieuwer, datacenter-GPU's |
Moderne GPU's combineren beide. De RTX 5090 heeft 21.760 standaardeenheden plus 680 Tensor-kernen van de vijfde generatie. De H100 combineert 16.896 standaardeenheden met 528 Tensor-kernen van de vierde generatie voor diepgaande leerversnelling.
Bij het trainen van neurale netwerken voeren Tensor-kernen zwaar werk uit tijdens voorwaartse en achterwaartse passages door het model. Standaardeenheden beheren het laden van gegevens, voorverwerking, verliesberekeningen en optimalisatie-updates. Beide typen werken samen, waarbij Tensor-kernen rekenintensieve bewerkingen versnellen.
Voor traditionele machine learning-algoritmen zoals willekeurige forests of gradiëntversterking beheren standaardeenheden het werk, omdat deze geen matrixvermenigvuldigingspatronen gebruiken die Tensor-kernen versnellen. Maar voor transformatormodellen en convolutionele neurale netwerken zorgen Tensor-kernen voor dramatische versnellingen.
Waar worden CUDA-kernen voor gebruikt?

CUDA levert energietaken waarvoor veel identieke berekeningen tegelijkertijd nodig zijn. Elk werk waarbij matrixbewerkingen of herhaalde numerieke berekeningen betrokken zijn, profiteert van hun architectuur.

AI- en machine learning-toepassingen
Diep leren is afhankelijk van matrixvermenigvuldigingen tijdens training en gevolgtrekking. Bij het trainen van neurale netwerken vereist elke voorwaartse doorgang miljoenen vermenigvuldigingsbewerkingen over gewichtsmatrices. Backpropagation voegt miljoenen extra toe tijdens de achterwaartse pass.
Eenheden beheren de voorverwerking van gegevens, het omzetten van afbeeldingen in tensoren, het normaliseren van waarden en het toepassen van augmentatietransformaties. Dit vermogen om duizenden taken tegelijk uit te voeren is precies waarom GPU’s belangrijk zijn voor AI.
Tijdens de training houden ze toezicht op leersnelheidsschema's, gradiëntberekeningen en updates van de status van de optimalisatie.
Voor VPS voor AI-inferentiebewerkingen waarbij aanbevelingssystemen of chatbots worden uitgevoerd, verwerken ze verzoeken gelijktijdig en voeren ze honderden voorspellingen tegelijkertijd uit. Onze gids over de beste GPU voor AI 2025 beschrijft welke configuraties werken voor verschillende modelgroottes.
De 16.896 eenheden van de H100, gecombineerd met Tensor-kernen, trainen een model met 7 miljard parameters in weken in plaats van maanden. Realtime gevolgtrekking voor chatbots die duizenden gebruikers bedienen, vereist een vergelijkbare gelijktijdige uitvoeringskracht.
Wetenschappelijk computergebruik en onderzoek
Onderzoekers gebruiken deze processors voor simulaties van moleculaire dynamica, klimaatmodellering en genomica-analyse. Elke berekening is onafhankelijk, waardoor ze perfect zijn voor gelijktijdige uitvoering. Financiële instellingen voeren Monte Carlo-simulaties uit met miljoenen scenario's tegelijk.
3D-rendering en videoproductie
Ray tracing berekent het licht dat door 3D-scènes weerkaatst door onafhankelijke stralen door elke pixel te volgen. Terwijl speciale RT-kernen de traversatie verzorgen, beheren standaardeenheden textuurbemonstering en verlichting. Deze verdeling bepaalt de snelheid van scènes met miljoenen stralen.
NVENC verzorgt de codering voor H.264 en H.265, terwijl de nieuwste architecturen (Ada Lovelace en Hopper) hardwareondersteuning voor AV1 introduceren. CUDA helpt met effecten, filters, schaling, ruisonderdrukking, kleurtransformaties en pijplijnlijm. Hierdoor kan de coderingsengine samenwerken met parallelle processors voor snellere videoproductie.
3D-rendering in Blender of Maya splitst miljarden oppervlakte-shaderberekeningen op over beschikbare eenheden. Deeltjessystemen profiteren ervan omdat ze duizenden deeltjes simuleren die tegelijkertijd op elkaar inwerken. Deze functies zijn essentieel voor hoogwaardige digitale creatie.
Hoe CUDA-kernen de GPU-prestaties beïnvloeden

Kerntellingen geven u een globaal idee van de gelijktijdige uitvoeringsmogelijkheden, maar voor CUDA-kernen moet verder worden gekeken dan alleen cijfers. Kloksnelheid, geheugenbandbreedte, architectuurefficiëntie en software-optimalisatie spelen allemaal een belangrijke rol.
Een GPU met 10.000 eenheden op 2,0 GHz levert andere resultaten op dan een GPU met 10.000 op 1,5 GHz. Een hogere kloksnelheid betekent dat elke eenheid meer berekeningen per seconde uitvoert. Nieuwere architecturen verpakken meer werk in elke cyclus dankzij een betere instructieplanning.
Controleer of u het apparaat bezig houdt, maar onthoud dat nvidia-smi gebruik is een grove maatstaf. Het meet het percentage van de tijd dat een kernel actief is, niet hoeveel cores werk doen.
# Check GPU utilization percentage
nvidia-smi --query-gpu=utilization.gpu,utilization.memory --format=csv,noheader
Voorbeelduitvoer: 85%, 92% (85% tijd actief, 92% geheugencontrolleractiviteit)
Als uw GPU een bezettingsgraad van 60-70% vertoont, heeft u waarschijnlijk te maken met knelpunten in de stroomopwaartse fase, zoals het laden van CPU-gegevens of kleine batchgroottes. Zelfs een benutting van 100% kan echter misleidend zijn als uw kernels geheugengebonden of single-threaded zijn. Voor een waarheidsgetrouw beeld van de kernverzadiging kunt u profilers zoals Nsight Systems gebruiken om de “SM Efficiency”- of “SM Active”-statistieken bij te houden.
Geheugenbandbreedte wordt vaak het knelpunt voordat de rekencapaciteit maximaal wordt benut. Als uw GPU gegevens sneller verwerkt dan het geheugen deze levert, blijven eenheden inactief. Het H100 SXM5-model gebruikt een bandbreedte van 3,35 TB/s om zijn 16.896 kernen te voeden. De PCIe-versie verlaagt dit echter naar 2 TB/s.

Consumenten-GPU's met vergelijkbare aantallen maar een lagere bandbreedte (ongeveer 1 TB/s) vertonen een lagere snelheid in de echte wereld bij geheugenintensieve bewerkingen.
VRAM-capaciteit bepaalt de omvang van uw taken. Of het nu FP16-gewichten zijn voor a 70B-modelvereist een volledige training meer geheugen. U moet rekening houden met gradiënten en optimalisatiestatussen. Deze staten verdrievoudigen vaak de voetafdruk, tenzij je offload-strategieën gebruikt
De A100 80GB richt zich op inferentie en fijnafstelling met hoge doorvoer. Ondertussen kan de 24GB RTX 4090, vaak aangehaald voor 7B-modellen, verrassend genoeg 30B+ parametermodellen draaien als je moderne kwantiseringstechnieken zoals INT4 gebruikt. Als het VRAM echter opraakt, worden CPU-GPU-gegevensoverdrachten afgedwongen die de doorvoer vernietigen.
Softwareoptimalisatie bepaalt of uw code daadwerkelijk al die eenheden gebruikt. Slecht geschreven kernels gebruiken mogelijk slechts een fractie van de beschikbare bronnen. Bibliotheken zoals cuDNN voor deep learning en RAPIDS voor datawetenschap zijn sterk afgestemd om het gebruik te maximaliseren.
Meer CUDA-kernen betekenen niet altijd betere prestaties

Het kopen van een GPU met het hoogste aantal kernen lijkt logisch, maar je verspilt geld als eenheden andere systeemcomponenten overtreffen of als je taak niet meegroeit met het aantal kernen.
Geheugenbandbreedte vormt de eerste limiet. De 21.760 eenheden van de RTX 5090 worden gevoed door 1.792 GB/s geheugenbandbreedte. Oudere GPU's met minder eenheden hebben mogelijk een proportioneel hogere bandbreedte per eenheid.
Architectuurverschillen zijn belangrijk. Een nieuwere GPU met 14.000 eenheden op 2,2 GHz presteert beter dan een oudere GPU met 16.000 eenheden op 1,8 GHz dankzij betere instructies per klok. Uw code heeft de juiste parallellisatie nodig om 20.000 eenheden effectief te kunnen gebruiken.
Waarom CUDA-kernen belangrijk zijn bij het kiezen van GPU VPS

Door de juiste CUDA core GPU-configuratie voor uw VPS te kiezen, voorkomt u dat u geld verspilt aan ongebruikte bronnen of dat u halverwege het project knelpunten tegenkomt.
Het geheugen van 80 GB van de H100 verwerkt de gevolgtrekking voor 70B-parametermodellen met behulp van 4-bit kwantisering. Voor volledige training is zelfs 80 GB echter vaak onvoldoende voor een 34B-model als je rekening houdt met gradiënten en optimalisatiestatussen. Bij FP16-training wordt de geheugenvoetafdruk aanzienlijk groter, waardoor vaak multi-GPU-sharding nodig is.
Inferentiebewerkingen voor realtime voorspellingen hebben minder eenheden nodig, maar profiteren van een lage latentie. Ontwikkeling en prototyping werken prima met GPU's uit het middensegment voor het testen van algoritmen en het opsporen van fouten in code.
Met een RTX 4060 Ti met 4.352 eenheden kun je testen zonder te betalen voor overkill-hardware. Zodra u uw aanpak heeft gevalideerd, kunt u opschalen naar productie-GPU's voor volledige trainingsruns.
Rendering en videowerk schalen met eenheden tot een bepaald punt. De Cycles-renderer van Blender gebruikt alle beschikbare bronnen efficiënt. Een GPU met 8.000-10.000 eenheden geeft scènes 2-3x sneller weer dan een GPU met 4.000 eenheden.
Bij Cloudzy bieden we hoge prestaties GPU-VPS hosting gebouwd voor zwaar werk. Kies de RTX 5090 of RTX 4090 voor snelle weergave en kosteneffectieve AI-inferentie, of schaal op naar A100's voor enorme deep learning-workloads. Alle abonnementen draaien op een 40 Gbps-netwerk met privacy-first-beleid en cryptocurrency-betalingsopties, waardoor u brute kracht krijgt zonder de administratieve rompslomp.
Of het nu gaat om het trainen van AI-modellen, het renderen van 3D-scènes of het uitvoeren van wetenschappelijke simulaties, u selecteert het kernaantal dat bij uw behoeften past.
Budgetoverwegingen zijn van belang. Een A100 met 6.912 stuks kost aanzienlijk minder dan een H100 met 16.896 stuks. Voor veel operaties bieden twee A100's een betere prijs-snelheidsverhouding dan één H100. Het break-evenpunt hangt af van de vraag of uw code over meerdere GPU's kan worden geschaald.
Hoe u het juiste aantal CUDA-kernen kiest

Stem uw vereisten af op de daadwerkelijke kenmerken van de werklast, in plaats van te streven naar de hoogste cijfers die op de markt beschikbaar zijn.
Begin met het profileren van uw huidige werk. Als u modellen traint op lokale hardware of cloudinstanties, controleer dan de GPU-gebruiksstatistieken. Als uw huidige GPU consistent een benutting van 60-70% laat zien, haalt u niet het maximale uit de eenheden.
# Quick benchmark to test if you need more cores
import torch
import time
# Test matrix multiplication (CUDA core workload)
size = 10000
a = torch.randn(size, size).cuda()
b = torch.randn(size, size).cuda()
start = time.time()
c = torch.matmul(a, b)
torch.cuda.synchronize()
elapsed = time.time() - start
print(f"Matrix multiplication time: {elapsed:.3f}s")
print(f"TFLOPS: {(2 * size**3) / (elapsed * 1e12):.2f}")
Deze eenvoudige benchmark laat zien of uw GPU-kernen de verwachte doorvoer leveren. Vergelijk uw resultaten met gepubliceerde benchmarks voor uw GPU-model.
Upgraden helpt niet. U moet eerst knelpunten zoals geheugen, bandbreedte of CPU-storingen aanpakken. Schat vervolgens de geheugenvereisten in door de modelgrootte in bytes plus activeringsgeheugen te berekenen.
Voeg batchgrootte maal laaguitvoer toe en neem optimalisatiestatussen op. Dit totaal moet in VRAM passen. Zodra u het vereiste geheugen kent, controleert u welke GPU's aan die drempel voldoen.
# Calculate VRAM needed for a model
# Formula: (parameters × bytes_per_param × 1.2) for overhead
# Example: 7B parameter model in FP16
# 7,000,000,000 × 2 bytes × 1.2 = 16.8 GB VRAM needed
# Check your available VRAM:
nvidia-smi --query-gpu=memory.total --format=csv,noheader
# 24576 MiB (24 GB available - model fits!)
Denk aan je tijdlijn. Als u binnen uren resultaten nodig heeft, betaalt u voor meer eenheden. Trainingsruns die dagen kunnen duren, werken prima op kleinere GPU's met proportioneel langere doorlooptijden.
De kosten per uur maal de benodigde uren geven de totale kosten weer, waardoor tragere GPU's soms in het algemeen goedkoper worden. Test de schaalefficiëntie met behulp van veel raamwerken die benchmarkingtools bieden die doorvoerveranderingen laten zien.
Als het verdubbelen van eenheden slechts 1,5x versnelling oplevert, zijn de extra’s hun kosten niet waard. Zoek naar goede plekken waar de prijs-snelheidsverhouding piekt.
| Type werklast | Aanbevolen kernen | Voorbeeld GPU's | Opmerkingen |
| Modelontwikkeling en debuggen | 3,000-5,000 | RTX 4060 Ti, RTX 4070 | Snelle iteratie, lagere kosten |
| Kleinschalige AI-training (<7B params) | 6,000-10,000 | RTX 4090, L40S | Geschikt voor consumenten en kleine ondernemingen |
| Grootschalige AI-training (7B-70B-parameters) | 14,000+ | A100, H100 | Vereist datacenter-GPU's |
| Real-time gevolgtrekking (hoge doorvoer) | 10,000-16,000 | RTX5080, L40 | Breng kosten en prestaties in evenwicht |
| 3D-rendering en videocodering | 8,000-12,000 | RTX4080, RTX4090 | Schalen met complexiteit |
| Wetenschappelijk computergebruik en HPC | 10,000+ | A100, H100 | Heeft FP64-ondersteuning nodig |
Populaire VPS GPU's en hun CUDA-kerntellingen

Verschillende GPU-lagen bedienen verschillende gebruikerssegmenten. Wat is GPUaaS? Het is GPU-as-a-Service, waarbij providers als Cloudzy on-demand toegang bieden tot deze krachtige NVIDIA GPU's zonder dat je zelf fysieke hardware hoeft aan te schaffen en te onderhouden.
| GPU-model | CUDA-kernen | VRAM | Geheugenbandbreedte | Architectuur | Beste voor |
| RTX5090 | 21,760 | 32GB GDDR7 | 1.792 GB/s | Zwartwel | Vlaggenschipwerkstation, 8K-weergave |
| RTX4090 | 16,384 | 24GB GDDR6X | 1.008 GB/sec | Ada Lovelace | Hoogwaardige AI, 4K-weergave |
| H100SXM5 | 16,896 | 80GB HBM3 | 3.350 GB/s | Hopper | Grootschalige AI-training |
| H100 PCIe | 14,592 | 80GB HBM2e | 2.000 GB/sec | Hopper | Enterprise AI, kosteneffectief datacenter |
| A100 | 6,912 | 40/80 GB HBM2e | 1.555-2.039 GB/s | Ampère | AI uit het middensegment, bewezen betrouwbaarheid |
| RTX4080 | 9,728 | 16GB GDDR6X | 736 GB/s | Ada Lovelace | Gaming, AI uit het middensegment |
| L40S | 18,176 | 48GB GDDR6 | 864 GB/s | Ada Lovelace | Datacenter met meerdere werklasten |
RTX-kaarten voor consumenten (4070, 4080, 4090, 5080, 5090) zijn gericht op makers en gaming, maar werken goed voor AI-ontwikkeling. Ze bieden een sterke single-GPU-snelheid tegen lagere prijzen dan datacenterkaarten.
VPS-aanbieders hebben deze vaak op voorraad voor prijsgevoelige gebruikers. Datacenterkaarten (A100, H100, L40) geven prioriteit aan betrouwbaarheid, ECC-geheugen en multi-GPU-schaling. Ze beheren 24/7 activiteiten en ondersteunen geavanceerde functies.
Met Multi-Instance GPU (MIG) kunt u één GPU in meerdere geïsoleerde instances verdelen. De A100 blijft ondanks nieuwere opties populair vanwege zijn uitgebalanceerde specificaties.
De balans tussen NVIDIA-kernen, geheugen en prijs maakt het de veilige keuze voor de meeste productie-AI-bewerkingen. De H100 biedt 2,4x meer eenheden, maar kost aanzienlijk meer.
Conclusie
Parallelle verwerkingsengines maken moderne AI, rendering en wetenschappelijk computergebruik mogelijk. De manier waarop ze werken en omgaan met geheugen, kloksnelheden en software helpt u bij het kiezen van GPU VPS-configuraties.
Meer eenheden helpen wanneer uw werk effectief parallel loopt en componenten zoals geheugenbandbreedte gelijke tred houden. Maar het blindelings najagen van het hoogste kernaantal verspilt geld als uw knelpunten elders liggen.
Begin met het profileren van uw daadwerkelijke activiteiten, identificeer waar tijd wordt besteed en stem de GPU-specificaties af op die vereisten zonder onnodige capaciteit te overkopen.
Voor het meeste AI-ontwikkelingswerk vormen 6.000 tot 10.000 eenheden de ideale oplossing tussen kosten en mogelijkheden. Productieactiviteiten die grote modellen trainen of gevolgtrekkingen met hoge doorvoer uitvoeren, profiteren van GPU's van meer dan 14.000 eenheden, zoals de H100.
Render- en videowerk kan efficiënt worden geschaald met eenheden tot ongeveer 16.000, waarna de geheugenbandbreedte de beperkende factor wordt.