Which GPUs does Cloudzy offer?

Four families: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, pro-grade for inference and rendering), Nvidia A100 (1× / 2× / 4×, for ML training, fp16/bf16 workloads, and 80 GB HBM2e per card), RTX 5090 (1× / 2×, newer Blackwell architecture, ideal for inference workloads and rendering), and RTX 4090 (1× / 2× / 4×, cost-effective for Stable Diffusion, LLM inference, and 3D rendering).

Are the GPUs dedicated or shared?

Dedicated. Each plan is a passthrough of the full physical GPU(s), not a slice, not vGPU, not MIG. The CUDA cores, the VRAM, the PCIe bandwidth, all yours. Multi-GPU plans use NVLink where the physical hardware supports it (A100 multi-GPU plans).

Is CUDA pre-installed?

Yes. Every GPU VPS ships with the latest stable CUDA toolkit, cuDNN, and Nvidia drivers pre-baked into the Ubuntu image. PyTorch, TensorFlow, JAX, and the Hugging Face stack run out of the box. You can re-image to a clean Ubuntu without CUDA if you want to install a specific version.

How much VRAM do I get?

Per GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Multi-GPU plans aggregate that, a 4× A100 plan has 320 GB total VRAM. The plan list above shows system RAM separately.

Can I run Stable Diffusion / Llama / Whisper on a GPU VPS?

Yes. The 1× RTX 4090 plan is a good starting point: enough VRAM for SDXL inference, Llama 3 70B (4-bit quantized), or Whisper Large. Bump to RTX 5090 or A100 if you need to run unquantized 70B models or train LoRAs.

How does the pricing compare to AWS / Google Cloud / Lambda Labs?

Generally cheaper for steady-state workloads, we don't price-discriminate by 'on-demand' vs 'spot' and we don't have egress fees. We won't quote competitor numbers (those change monthly). The 14-day money-back guarantee lets you A/B against your current provider with your own benchmarks.

Is there an annual discount?

Yes, 35% off annual billing on every GPU plan (lower than the 50% on regular CPU because GPU hardware costs more to amortize). No auto-renewal; you'll get an invoice before each yearly cycle so you can downgrade, upgrade, or cancel without surprise charges.

What about networking? Is it really 40 Gbps?

Yes. Same 40 Gbps uplinks as our flagship Cloud VPS, with no egress fees on monthly transfer up to the plan allowance. Useful for moving large datasets in and out of the GPU node, pulling a 100 GB Hugging Face model takes about 30 seconds at line rate.

Can I run multi-node training (multiple GPU VPS together)?

Yes within a region. VPS in the same datacenter share the local network with sub-millisecond latency. We don't currently offer InfiniBand interconnect, multi-node training over standard Ethernet is fine for fine-tuning and small-scale distributed jobs but isn't competitive with bare-metal HPC for large pre-training.

Money-back guarantee on GPU plans?

14 days, no questions asked. Refund within one billing cycle. Plenty of time to benchmark CUDA throughput, run a real training step, and decide if Cloudzy is the right fit for your workload.

GPU VPS Hosting

RTX 6000 Pro. A100. RTX 5090.
Dediziert, nicht aufgeteilt.

Name: Cloudzy GPU VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (728 reviews)

Vollständiges GPU-Passthrough. RTX 6000 Pro, A100, RTX 5090, RTX 4090. CUDA, cuDNN und PyTorch vorinstalliert.
NVMe + 40 Gbps Netzwerk. Unabhängige Cloud seit 2008.

4.6 · 728 reviews on Trustpilot

GPU VPS deployen GPU-Pläne vergleichen

Ab $506.35/mo · 35 % Rabatt bei Jahreszahlung · Keine Kreditkarte erforderlich

~ ssh root@gpu-train-001 verbunden

root@gpu-train-001:~# nvidia-smi --query-gpu=name,memory.total,driver_version --format=csv
name, memory.total, driver_version
NVIDIA RTX 6000 Pro, 49152 MiB, 560.94
root@gpu-train-001:~# python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
True NVIDIA RTX 6000 Pro
root@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
→ Training step 1/2400 · 4.2s/step · loss=2.143
root@gpu-train-001:~# _

GPU VPS auf einen Blick

Cloudzy verkauft GPU VPS Tarife mit dediziertem RTX 6000 Pro, Nvidia A100, RTX 5090, und RTX 4090 Karten in 1× bis 4× Konfigurationen, ab $506.35 per month. Jeder Plan wird mit der neuesten vorinstallierten CUDA, cuDNN, und Nvidia Treiber, läuft auf AMD EPYC + DDR5 mit Nur NVMe Speicher und 40 Gbps Uplinks und stellt in 60 Sekunden. GPUs sind dedizierte Passthrough-GPUs – kein vGPU, kein MIG, kein Sharing. Cloudzy ist seit 2008 unabhängig und wird bewertet mit 4.6 / 5 by 728+ reviewers auf Trustpilot.

Einstiegspreis: $506.35 / mo
GPU-Typen: 6000 Pro · A100 · 5090 · 4090
Konfigurationen: 1× bis 4×
CUDA: Vorinstalliert
Jahresrabatt: 35% Rabatt
Geld-zurück: 14 Tage

Warum ML-Teams sich für Cloudzy entscheiden

GPU-Rechenleistung für auf unterhaltsame Weise.

Die vier Gründe, warum Teams von AWS / GCP / Hyperscaler GPUs zu Cloudzy wechseln.

Dedizierter GPU-Passthrough

Die physische Karte gehört vollständig dir – kein Slicing, keine MIG-Partitionen, keine Konkurrenz mit anderen Mietern. CUDA-Kerne, VRAM, PCIe-Lanes – alles dediziert.

CUDA-fähige Images

Aktuelle Nvidia-Treiber, CUDA-Toolkit und cuDNN sind im Ubuntu-Image vorinstalliert. PyTorch, TensorFlow, JAX, Hugging Face, pip install – und das Training kann beginnen.

NVMe + 40 Gbps

Reiner NVMe-Speicher, damit das Laden von Datensätzen nicht zum Engpass wird. Mit 40 Gbps Netzwerkanbindung dauert das Herunterladen eines 100-GB-Hugging Face-Modells Sekunden, keine Minuten.

24/7 Support durch echte Mitarbeiter

Echte Ingenieure im Chat. Wir haben genug Teams bei der Einrichtung von Multi-GPU-Training, beim Debuggen von CUDA OOMs und beim Tuning von Llama-Inferenz unterstützt – die Antworten kommen schnell.

GPU-Palette

Vier Familien.
Neun Wege zum Skalieren.

RTX 6000 Pro für professionelle Inferenz und Rendering mit 48 GB ECC VRAM. A100 für Training und Workloads mit großem VRAM-Bedarf. RTX 5090 für neueste Inferenz. RTX 4090 für kosteneffiziente Inferenz bis 70B (4-Bit). Multi-GPU-Pläne verfügbar – wähle, was dein VRAM-Budget erlaubt.

Vollständiges GPU-Passthrough, nicht aufgeteilt, nicht geteilt

RTX 6000 Pro

48 GB GDDR6 ECC · Pro-grade

Nvidia A100

80 GB HBM2e · ML training

RTX 5090

32 GB GDDR7 · Blackwell

RTX 4090

24 GB GDDR6X · cost-effective

1× bis 4× GPU

Multi-GPU-Pläne verfügbar

CUDA vorinstalliert

PyTorch · TF · JAX bereit

Reines NVMe

Schneller Datensatz I/O

40 Gbps uplink

Ziehe 100 GB Modelle in 30s herunter

Anwendungsfälle

Die Workloads, für die unsere
Kunden tatsächlich trainieren.

LLM-Inferenz

Llama 3, Mistral, DeepSeek oder Qwen mit vLLM oder Text Generation Inference betreiben. RTX 4090 verarbeitet 70B mit 4-Bit, RTX 5090 mit 8-Bit, A100 ohne Quantisierung.

Stable Diffusion · Bildgenerierung

SDXL, Flux oder fine-tuned Stable Diffusion-Checkpoints mit ComfyUI oder Automatic1111 ausführen. RTX 4090 erreicht 30+ Bilder/min bei Standard-1024×1024-SDXL.

ML-Training + Fine-Tuning

LoRA, QLoRA, vollständiges Fine-Tuning. A100 ist die beste Wahl für unquantisiertes Fine-Tuning von 7B–13B-Modellen; 4× A100 verarbeitet bis zu 70B mit geeignetem Sharding (FSDP / DeepSpeed).

3D-Rendering · Blender

Cycles + OptiX auf RTX-Karten ist der schnellste Weg für Animationsstudios. Der 24 GB VRAM des RTX 4090 deckt die große Mehrheit einzelner Produktions-Frames ab.

Speech- und Vision-Pipelines

Whisper Large, Faster-Whisper, YOLO, Segment Anything. Selbst der RTX 4090-Plan führt diese Modelle mit Echtzeit-Inferenz und ausreichend Puffer aus.

Lang laufende Batch-Jobs

Embedding-Generierung, Retrieval-Pipelines, Dataset-Vorverarbeitung. Stündlich abrechnen, Job ausführen, Output als Snapshot sichern, Server löschen – günstiger als das Mieten bei AWS/GCP für denselben Workload.

80 GB

A100 VRAM

40 Gbps

Aufwärtsverbindung

CUDA-bereit

Bild

4 ×

Max GPUs

35%

Jährlicher Rabatt

14 Tage

Geld-zurück

Preise

Ausgewählte GPU-Pläne. Stundenweise oder jährlich.

Jährliche Abrechnung ist derzeit 35% Rabatt für jeden GPU-Plan.

Am beliebtesten

1× RTX 6000 Pro

48 GB GDDR6 ECC VRAM

$845 /Monat

$1300/mo -35%

Jetzt deployen

14 Tage Geld-zurück

200 GB DDR5
24 vCPU
1.3 TB NVMe NVMe
20 TB · 40 Gbps
CUDA vorinstalliert

Alle 9 GPU-Pläne ansehen (1× bis 4× Karten)

Häufig gestellte Fragen. GPU VPS

Häufige Fragen, klare Antworten.

Welche GPUs bietet Cloudzy an?

Vier Familien: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, professionell für Inferenz und Rendering), Nvidia A100 (1× / 2× / 4×, für ML-Training, fp16/bf16-Workloads und 80 GB HBM2e pro Karte), RTX 5090 (1× / 2×, neuere Blackwell-Architektur, ideal für Inferenz-Workloads und Rendering) und RTX 4090 (1× / 2× / 4×, kosteneffizient für Stable Diffusion, LLM-Inferenz und 3D-Rendering).

Sind die GPUs dediziert oder geteilt?

Dediziert. Jeder Plan bietet einen direkten Durchgriff auf die vollständige(n) physische(n) GPU(s) – keine Aufteilung, kein vGPU, kein MIG. Die CUDA-Kerne, der VRAM, die PCIe-Bandbreite – alles gehört Ihnen. Multi-GPU-Pläne nutzen NVLink, sofern die physische Hardware dies unterstützt (A100-Multi-GPU-Pläne).

Ist CUDA vorinstalliert?

Ja. Jede GPU VPS kommt mit dem aktuellen stabilen CUDA-Toolkit, cuDNN und Nvidia-Treibern, die bereits im Ubuntu-Image vorinstalliert sind. PyTorch, TensorFlow, JAX und der Hugging Face-Stack sind sofort einsatzbereit. Wenn du eine bestimmte Version installieren möchtest, kannst du auf ein sauberes Ubuntu-Image ohne CUDA zurücksetzen.

Wie viel VRAM erhalte ich?

Pro GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Bei Multi-GPU-Plänen addiert sich das entsprechend - ein 4x A100-Plan verfügt über insgesamt 320 GB VRAM. Der RAM des Systems ist in der obigen Planliste separat ausgewiesen.

Kann ich Stable Diffusion / Llama / Whisper auf einer GPU VPS betreiben?

Ja. Der 1× RTX 4090-Plan ist ein guter Einstiegspunkt: genug VRAM für SDXL-Inferenz, Llama 3 70B (4-Bit-Quantisierung) oder Whisper Large. Wechsle zu RTX 5090 oder A100, wenn du unkomprimierte 70B-Modelle ausführen oder LoRAs trainieren möchtest.

Wie schneidet die Preisgestaltung im Vergleich zu AWS / Google Cloud / Lambda Labs ab?

Für gleichmäßige Workloads in der Regel günstiger: Wir unterscheiden nicht zwischen 'On-Demand'- und 'Spot'-Preisen, und wir berechnen keine Egress-Gebühren. Konkurrenzpreise nennen wir nicht – die ändern sich monatlich. Mit der 14-tägigen Geld-zurück-Garantie können Sie Cloudzy direkt gegen Ihren aktuellen Anbieter testen – mit Ihren eigenen Benchmarks.

Gibt es einen Jahresrabatt?

Ja, 35 % Rabatt bei jährlicher Abrechnung auf jeden GPU-Tarif (etwas weniger als die 50 % bei regulären CPU-Tarifen, da die GPU-Hardware höhere Anschaffungskosten hat). Keine automatische Verlängerung: Du erhältst vor jedem Jahreszyklus eine Rechnung und kannst dann ohne unerwartete Kosten downgraden, upgraden oder kündigen.

Was ist mit dem Netzwerk? Sind es wirklich 40 Gbps?

Ja. Dieselben 40 Gbps Uplinks wie bei unserem Cloud-Flaggschiff VPS – ohne Egress-Gebühren für monatliche Transfers bis zur Plan-Inklusivleistung. Praktisch für das Verschieben großer Datensätze in den und aus dem GPU-Knoten: Ein 100 GB Hugging Face-Modell lässt sich bei voller Leitungsgeschwindigkeit in etwa 30 Sekunden herunterladen.

Kann ich Multi-Node-Training betreiben (mehrere GPU VPS zusammen)?

Ja, innerhalb einer Region. VPS im selben Rechenzentrum teilen sich ein lokales Netzwerk mit Sub-Millisekunden-Latenz. InfiniBand-Interconnect bieten wir derzeit nicht an – Multi-Node-Training über Standard-Ethernet eignet sich gut für Fine-Tuning und kleinere verteilte Jobs, ist aber kein Ersatz für Bare-Metal-HPC bei großem Pre-Training.

Gibt es eine Geld-zurück-Garantie für GPU-Tarife?

14 Tage, keine Fragen gestellt. Rückerstattung innerhalb eines Abrechnungszeitraums. Genug Zeit, um den CUDA-Durchsatz zu messen, einen echten Trainingsschritt auszuführen und zu entscheiden, ob Cloudzy zu deinem Workload passt.

Schluss mit Hyperscaler-Preisen.
Trainieren Sie auf dedizierten GPUs.

Karte auswählen, Region auswählen, klicken. CUDA ist bereits installiert.