Which GPUs does Cloudzy offer?

Four families: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, pro-grade for inference and rendering), Nvidia A100 (1× / 2× / 4×, for ML training, fp16/bf16 workloads, and 80 GB HBM2e per card), RTX 5090 (1× / 2×, newer Blackwell architecture, ideal for inference workloads and rendering), and RTX 4090 (1× / 2× / 4×, cost-effective for Stable Diffusion, LLM inference, and 3D rendering).

Are the GPUs dedicated or shared?

Dedicated. Each plan is a passthrough of the full physical GPU(s), not a slice, not vGPU, not MIG. The CUDA cores, the VRAM, the PCIe bandwidth, all yours. Multi-GPU plans use NVLink where the physical hardware supports it (A100 multi-GPU plans).

Is CUDA pre-installed?

Yes. Every GPU VPS ships with the latest stable CUDA toolkit, cuDNN, and Nvidia drivers pre-baked into the Ubuntu image. PyTorch, TensorFlow, JAX, and the Hugging Face stack run out of the box. You can re-image to a clean Ubuntu without CUDA if you want to install a specific version.

How much VRAM do I get?

Per GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Multi-GPU plans aggregate that, a 4× A100 plan has 320 GB total VRAM. The plan list above shows system RAM separately.

Can I run Stable Diffusion / Llama / Whisper on a GPU VPS?

Yes. The 1× RTX 4090 plan is a good starting point: enough VRAM for SDXL inference, Llama 3 70B (4-bit quantized), or Whisper Large. Bump to RTX 5090 or A100 if you need to run unquantized 70B models or train LoRAs.

How does the pricing compare to AWS / Google Cloud / Lambda Labs?

Generally cheaper for steady-state workloads, we don't price-discriminate by 'on-demand' vs 'spot' and we don't have egress fees. We won't quote competitor numbers (those change monthly). The 14-day money-back guarantee lets you A/B against your current provider with your own benchmarks.

Is there an annual discount?

Yes, 35% off annual billing on every GPU plan (lower than the 50% on regular CPU because GPU hardware costs more to amortize). No auto-renewal; you'll get an invoice before each yearly cycle so you can downgrade, upgrade, or cancel without surprise charges.

What about networking? Is it really 40 Gbps?

Yes. Same 40 Gbps uplinks as our flagship Cloud VPS, with no egress fees on monthly transfer up to the plan allowance. Useful for moving large datasets in and out of the GPU node, pulling a 100 GB Hugging Face model takes about 30 seconds at line rate.

Can I run multi-node training (multiple GPU VPS together)?

Yes within a region. VPS in the same datacenter share the local network with sub-millisecond latency. We don't currently offer InfiniBand interconnect, multi-node training over standard Ethernet is fine for fine-tuning and small-scale distributed jobs but isn't competitive with bare-metal HPC for large pre-training.

Money-back guarantee on GPU plans?

14 days, no questions asked. Refund within one billing cycle. Plenty of time to benchmark CUDA throughput, run a real training step, and decide if Cloudzy is the right fit for your workload.

Hébergement GPU VPS

RTX 6000 Pro. A100. RTX 5090.
Dédié, sans partage.

Name: Cloudzy GPU VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (728 reviews)

GPU en passthrough intégral. RTX 6000 Pro, A100, RTX 5090, RTX 4090. CUDA, cuDNN et PyTorch préinstallés.
NVMe + réseau 40 Gbps. Cloud indépendant depuis 2008.

4.6 · 728 reviews on Trustpilot

Déployer un VPS GPU Comparer les offres GPU

À partir de $506.35/mo · -35 % sur l'abonnement annuel · Sans carte bancaire requise

~ ssh root@gpu-train-001 connecté

root@gpu-train-001:~# nvidia-smi --query-gpu=name,memory.total,driver_version --format=csv
name, memory.total, driver_version
NVIDIA RTX 6000 Pro, 49152 MiB, 560.94
root@gpu-train-001:~# python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
True NVIDIA RTX 6000 Pro
root@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
→ Training step 1/2400 · 4.2s/step · loss=2.143
root@gpu-train-001:~# _

Les VPS GPU en bref

Cloudzy propose des offres VPS GPU avec des RTX 6000 Pro, Nvidia A100, RTX 5090, et RTX 4090 cartes en configuration 1× à 4× à partir de $506.35 per month. Chaque offre est livrée avec les derniers CUDA, cuDNN, et les pilotes Nvidia préinstallés, tourne sur AMD EPYC + DDR5 avec des liaisons montantes NVMe uniquement stockage et 40 Gbps et se déploie en 60 secondes. Les GPU sont en passthrough dédié : ni vGPU, ni MIG, ni partagé. Cloudzy est indépendant depuis 2008 et est noté 4.6 / 5 by 728+ reviewers sur Trustpilot.

Prix de départ: $506.35 / mo
Types GPU: 6000 Pro · A100 · 5090 · 4090
Configurations: 1× à 4×
CUDA: Préinstallé
Remise annuelle: 35 % de réduction
Remboursement garanti: 14 jours

Pourquoi les équipes ML choisissent Cloudzy

Calculez avec GPU, sans vous ennuyer.

Les quatre raisons pour lesquelles les équipes migrent vers Cloudzy depuis AWS / GCP / les GPU des hyperscalers.

Passthrough GPU dédié

La carte physique complète est à vous : pas de découpage vGPU, pas de partitions MIG, aucune contention avec les autres locataires. Cœurs CUDA, VRAM, lignes PCIe, tout est dédié.

Images prêtes pour CUDA

Derniers drivers Nvidia, toolkit CUDA et cuDNN préinstallés dans l'image Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, un pip install et vous êtes prêt à entraîner.

NVMe + 40 Gbps

Stockage 100 % NVMe pour que le chargement des datasets ne soit plus le goulot d'étranglement. Avec 40 Gbps réseau, télécharger un modèle Hugging Face de 100 GB prend quelques secondes, pas des minutes.

Support humain 24h/24, 7j/7

Des ingénieurs disponibles en chat. Nous avons aidé suffisamment d'équipes à configurer l'entraînement multi-GPU, à déboguer des CUDA OOM et à optimiser l'inférence Llama pour vous répondre rapidement.

Gamme GPU

Quatre familles.
Neuf façons de monter en charge.

RTX 6000 Pro pour l'inférence et le rendu professionnels avec 48 GB de VRAM ECC. A100 pour l'entraînement et les charges de travail à grande VRAM. RTX 5090 pour la toute dernière inférence. RTX 4090 pour une inférence économique jusqu'à 70B (4 bits). Plans multi-GPU disponibles, choisissez selon votre budget VRAM.

Passthrough GPU complet, ni découpé, ni partagé

RTX 6000 Pro

48 GB GDDR6 ECC · Pro-grade

Nvidia A100

80 GB HBM2e · ML training

RTX 5090

32 GB GDDR7 · Blackwell

RTX 4090

24 GB GDDR6X · cost-effective

1× à 4× GPU

Plans multi-GPU disponibles

CUDA préinstallé

PyTorch · TF · JAX prêts à l'emploi

NVMe pur

Dataset rapide I/O

40 Gbps uplink

Téléchargez des modèles de 100 GB en 30 secondes

Cas d'usage

Les charges de travail que nos
clients font vraiment tourner.

Inférence LLM

Déployez Llama 3, Mistral, DeepSeek ou Qwen avec vLLM ou Text Generation Inference. RTX 4090 gère les modèles 70B en 4 bits, RTX 5090 en 8 bits, A100 sans quantification.

Stable Diffusion · génération d'images

Exécutez SDXL, Flux ou des checkpoints Stable Diffusion affinés avec ComfyUI ou Automatic1111. RTX 4090 atteint 30+ images/min en SDXL standard 1024×1024.

Entraînement ML et fine-tuning

LoRA, QLoRA, fine-tuning complet. A100 est le choix idéal pour le fine-tuning non quantifié de modèles 7B-13B ; 4× A100 prend en charge jusqu'à 70B avec un sharding adapté (FSDP / DeepSpeed).

Rendu 3D · Blender

Cycles + OptiX sur les cartes RTX est la solution la plus rapide pour les studios d'animation. Les 24 GB de VRAM sur RTX 4090 couvrent la grande majorité des scènes de production en rendu unique.

Pipelines audio et vision

Whisper Large, Faster-Whisper, YOLO, Segment Anything. Même le plan RTX 4090 exécute ces modèles en inférence temps réel avec une marge confortable.

Traitements batch longue durée

Génération d'embeddings, pipelines de retrieval, prétraitement de datasets. Payez à l'heure : lancez le job, sauvegardez le résultat, supprimez l'instance. Moins cher que de louer sur AWS/GCP pour la même charge de travail.

80 GB

A100 VRAM

40 Gbps

Liaison montante

Compatible CUDA

Image

4 ×

GPUs max

35%

De réduction annuelle

14 jours

Remboursement garanti

Tarifs

Plans GPU en vedette. Facturation horaire ou annuelle.

La facturation annuelle est actuellement 35 % de réduction sur chaque plan GPU.

Le plus populaire

1× RTX 6000 Pro

48 GB GDDR6 ECC VRAM

$845 /mois

$1300/mo -35%

Déployer maintenant

Remboursement sous 14 jours

200 GB DDR5
24 vCPU
1.3 TB NVMe NVMe
20 TB · 40 Gbps
CUDA préinstallé

Voir les 9 offres GPU (1× à 4× cartes)

FAQ. GPU VPS

Questions fréquentes, réponses directes.

Quels GPU propose Cloudzy ?

Quatre gammes : RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, niveau professionnel pour l'inférence et le rendu), Nvidia A100 (1× / 2× / 4×, pour l'entraînement ML, les charges de travail fp16/bf16, et 80 GB HBM2e par carte), RTX 5090 (1× / 2×, architecture Blackwell de dernière génération, idéale pour l'inférence et le rendu), et RTX 4090 (1× / 2× / 4×, rapport qualité-prix optimal pour Stable Diffusion, l'inférence LLM et le rendu 3D).

Les GPU sont-ils dédiés ou partagés ?

Dédiés. Chaque offre vous donne un accès direct au(x) GPU physique(s) complet(s) : pas de découpage, pas de vGPU, pas de MIG. Les cœurs CUDA, la VRAM, la bande passante PCIe, tout vous appartient. Les offres multi-GPU utilisent NVLink lorsque le matériel physique le permet (offres multi-GPU A100).

CUDA est-il préinstallé ?

Oui. Chaque VPS GPU inclut la dernière version stable du toolkit CUDA, cuDNN et les pilotes Nvidia directement intégrés à l'image Ubuntu. PyTorch, TensorFlow, JAX et la pile Hugging Face sont prêts à l'emploi. Vous pouvez réinstaller une image Ubuntu vierge sans CUDA si vous souhaitez installer une version spécifique.

Combien de VRAM est incluse ?

Par GPU : RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Les offres multi-GPU cumulent ces capacités : une offre 4× A100 dispose de 320 GB de VRAM au total. La liste des offres ci-dessus indique la RAM système séparément.

Puis-je exécuter Stable Diffusion / Llama / Whisper sur un VPS GPU ?

Oui. L'offre 1× RTX 4090 est un bon point de départ : suffisamment de VRAM pour l'inférence SDXL, Llama 3 70B (quantifié en 4 bits) ou Whisper Large. Passez à RTX 5090 ou A100 si vous devez exécuter des modèles 70B non quantifiés ou entraîner des LoRAs.

Comment les tarifs se comparent-ils à ceux de AWS / Google Cloud / Lambda Labs ?

Généralement moins cher pour les charges de travail stables : pas de tarification différenciée entre « à la demande » et « spot », et aucun frais de sortie. Nous ne citons pas les tarifs de nos concurrents (ils changent chaque mois). La garantie satisfait ou remboursé de 14 jours vous permet de comparer avec votre fournisseur actuel sur la base de vos propres benchmarks.

Y a-t-il une réduction pour un abonnement annuel ?

Oui, 35 % de réduction sur la facturation annuelle pour chaque offre GPU (moins que les 50 % sur les CPU classiques, car le matériel GPU est plus coûteux à amortir). Pas de renouvellement automatique : vous recevrez une facture avant chaque cycle annuel pour pouvoir rétrograder, mettre à niveau ou résilier sans mauvaise surprise.

Et le réseau ? Le débit est vraiment de 40 Gbps ?

Oui. Les mêmes liaisons montantes à 40 Gbps que notre Cloud VPS phare, sans frais de sortie sur le transfert mensuel jusqu'à la limite de l'offre. Utile pour déplacer de grands volumes de données vers et depuis le nœud GPU : télécharger un modèle Hugging Face de 100 Go prend environ 30 secondes à la vitesse maximale de la ligne.

Puis-je effectuer un entraînement multi-nœuds (plusieurs GPU VPS ensemble) ?

Oui, au sein d'une même région. Les VPS situés dans le même datacenter partagent le réseau local avec une latence inférieure à la milliseconde. Nous ne proposons pas encore d'interconnexion InfiniBand. L'entraînement multi-nœuds sur Ethernet standard convient au fine-tuning et aux tâches distribuées à petite échelle, mais ne rivalise pas avec le HPC bare-metal pour le pré-entraînement à grande échelle.

Garantie satisfait ou remboursé sur les offres GPU ?

14 jours, sans condition. Remboursement dans un cycle de facturation. Largement suffisant pour mesurer le débit CUDA, lancer une vraie étape d'entraînement et déterminer si Cloudzy correspond à votre charge de travail.

Arrêtez de payer les prix des hyperscalers.
Entraînez vos modèles sur des GPU dédiés.

Choisissez une carte, choisissez une région, cliquez. CUDA est déjà installé.