50 % Rabatt auf alle Pläne, begrenzte Zeit. Ab $2.48/mo

GPU VPS Hosting

RTX 6000 Pro. A100. RTX 5090.
Dediziert, nicht aufgeteilt.

Vollständiges GPU-Passthrough. RTX 6000 Pro, A100, RTX 5090, RTX 4090. CUDA, cuDNN und PyTorch vorinstalliert.
NVMe + 40 Gbps Netzwerk. Unabhängige Cloud seit 2008.

4.6 · 728 reviews on Trustpilot

Ab $506.35/mo · 35 % Rabatt bei Jahreszahlung · Keine Kreditkarte erforderlich

~ ssh root@gpu-train-001 verbunden
root@gpu-train-001:~# nvidia-smi --query-gpu=name,memory.total,driver_version --format=csv
name, memory.total, driver_version
NVIDIA RTX 6000 Pro, 49152 MiB, 560.94
root@gpu-train-001:~# python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
True NVIDIA RTX 6000 Pro
root@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
Training step 1/2400 · 4.2s/step · loss=2.143
root@gpu-train-001:~# _

GPU VPS auf einen Blick

Cloudzy verkauft GPU VPS Tarife mit dediziertem RTX 6000 Pro, Nvidia A100, RTX 5090, und RTX 4090 Karten in 1× bis 4× Konfigurationen, ab $506.35 per month. Jeder Plan wird mit der neuesten vorinstallierten CUDA, cuDNN, und Nvidia Treiber, läuft auf AMD EPYC + DDR5 mit Nur NVMe Speicher und 40 Gbps Uplinks und stellt in 60 Sekunden. GPUs sind dedizierte Passthrough-GPUs – kein vGPU, kein MIG, kein Sharing. Cloudzy ist seit 2008 unabhängig und wird bewertet mit 4.6 / 5 by 728+ reviewers auf Trustpilot.

Einstiegspreis
$506.35 / mo
GPU-Typen
6000 Pro · A100 · 5090 · 4090
Konfigurationen
1× bis 4×
CUDA
Vorinstalliert
Jahresrabatt
35% Rabatt
Geld-zurück
14 Tage

Warum ML-Teams sich für Cloudzy entscheiden

GPU-Rechenleistung für auf unterhaltsame Weise.

Die vier Gründe, warum Teams von AWS / GCP / Hyperscaler GPUs zu Cloudzy wechseln.

Dedizierter GPU-Passthrough

Die physische Karte gehört vollständig dir – kein Slicing, keine MIG-Partitionen, keine Konkurrenz mit anderen Mietern. CUDA-Kerne, VRAM, PCIe-Lanes – alles dediziert.

CUDA-fähige Images

Aktuelle Nvidia-Treiber, CUDA-Toolkit und cuDNN sind im Ubuntu-Image vorinstalliert. PyTorch, TensorFlow, JAX, Hugging Face, pip install – und das Training kann beginnen.

NVMe + 40 Gbps

Reiner NVMe-Speicher, damit das Laden von Datensätzen nicht zum Engpass wird. Mit 40 Gbps Netzwerkanbindung dauert das Herunterladen eines 100-GB-Hugging Face-Modells Sekunden, keine Minuten.

24/7 Support durch echte Mitarbeiter

Echte Ingenieure im Chat. Wir haben genug Teams bei der Einrichtung von Multi-GPU-Training, beim Debuggen von CUDA OOMs und beim Tuning von Llama-Inferenz unterstützt – die Antworten kommen schnell.

GPU-Palette

Vier Familien.
Neun Wege zum Skalieren.

RTX 6000 Pro für professionelle Inferenz und Rendering mit 48 GB ECC VRAM. A100 für Training und Workloads mit großem VRAM-Bedarf. RTX 5090 für neueste Inferenz. RTX 4090 für kosteneffiziente Inferenz bis 70B (4-Bit). Multi-GPU-Pläne verfügbar – wähle, was dein VRAM-Budget erlaubt.

Vollständiges GPU-Passthrough, nicht aufgeteilt, nicht geteilt
RTX 6000 Pro
48 GB GDDR6 ECC · Pro-grade
Nvidia A100
80 GB HBM2e · ML training
RTX 5090
32 GB GDDR7 · Blackwell
RTX 4090
24 GB GDDR6X · cost-effective
1× bis 4× GPU
Multi-GPU-Pläne verfügbar
CUDA vorinstalliert
PyTorch · TF · JAX bereit
Reines NVMe
Schneller Datensatz I/O
40 Gbps uplink
Ziehe 100 GB Modelle in 30s herunter

Anwendungsfälle

Die Workloads, für die unsere
Kunden tatsächlich trainieren.

LLM-Inferenz

Llama 3, Mistral, DeepSeek oder Qwen mit vLLM oder Text Generation Inference betreiben. RTX 4090 verarbeitet 70B mit 4-Bit, RTX 5090 mit 8-Bit, A100 ohne Quantisierung.

Stable Diffusion · Bildgenerierung

SDXL, Flux oder fine-tuned Stable Diffusion-Checkpoints mit ComfyUI oder Automatic1111 ausführen. RTX 4090 erreicht 30+ Bilder/min bei Standard-1024×1024-SDXL.

ML-Training + Fine-Tuning

LoRA, QLoRA, vollständiges Fine-Tuning. A100 ist die beste Wahl für unquantisiertes Fine-Tuning von 7B–13B-Modellen; 4× A100 verarbeitet bis zu 70B mit geeignetem Sharding (FSDP / DeepSpeed).

3D-Rendering · Blender

Cycles + OptiX auf RTX-Karten ist der schnellste Weg für Animationsstudios. Der 24 GB VRAM des RTX 4090 deckt die große Mehrheit einzelner Produktions-Frames ab.

Speech- und Vision-Pipelines

Whisper Large, Faster-Whisper, YOLO, Segment Anything. Selbst der RTX 4090-Plan führt diese Modelle mit Echtzeit-Inferenz und ausreichend Puffer aus.

Lang laufende Batch-Jobs

Embedding-Generierung, Retrieval-Pipelines, Dataset-Vorverarbeitung. Stündlich abrechnen, Job ausführen, Output als Snapshot sichern, Server löschen – günstiger als das Mieten bei AWS/GCP für denselben Workload.

80 GB
A100 VRAM
40 Gbps
Aufwärtsverbindung
CUDA-bereit
Bild
4 ×
Max GPUs
35%
Jährlicher Rabatt
14 Tage
Geld-zurück

Preise

Ausgewählte GPU-Pläne. Stundenweise oder jährlich.

Jährliche Abrechnung ist derzeit 35% Rabatt für jeden GPU-Plan.

Häufig gestellte Fragen. GPU VPS

Häufige Fragen, klare Antworten.

Welche GPUs bietet Cloudzy an?

Vier Familien: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, professionell für Inferenz und Rendering), Nvidia A100 (1× / 2× / 4×, für ML-Training, fp16/bf16-Workloads und 80 GB HBM2e pro Karte), RTX 5090 (1× / 2×, neuere Blackwell-Architektur, ideal für Inferenz-Workloads und Rendering) und RTX 4090 (1× / 2× / 4×, kosteneffizient für Stable Diffusion, LLM-Inferenz und 3D-Rendering).

Sind die GPUs dediziert oder geteilt?

Dediziert. Jeder Plan bietet einen direkten Durchgriff auf die vollständige(n) physische(n) GPU(s) – keine Aufteilung, kein vGPU, kein MIG. Die CUDA-Kerne, der VRAM, die PCIe-Bandbreite – alles gehört Ihnen. Multi-GPU-Pläne nutzen NVLink, sofern die physische Hardware dies unterstützt (A100-Multi-GPU-Pläne).

Ist CUDA vorinstalliert?

Ja. Jede GPU VPS kommt mit dem aktuellen stabilen CUDA-Toolkit, cuDNN und Nvidia-Treibern, die bereits im Ubuntu-Image vorinstalliert sind. PyTorch, TensorFlow, JAX und der Hugging Face-Stack sind sofort einsatzbereit. Wenn du eine bestimmte Version installieren möchtest, kannst du auf ein sauberes Ubuntu-Image ohne CUDA zurücksetzen.

Wie viel VRAM erhalte ich?

Pro GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Bei Multi-GPU-Plänen addiert sich das entsprechend - ein 4x A100-Plan verfügt über insgesamt 320 GB VRAM. Der RAM des Systems ist in der obigen Planliste separat ausgewiesen.

Kann ich Stable Diffusion / Llama / Whisper auf einer GPU VPS betreiben?

Ja. Der 1× RTX 4090-Plan ist ein guter Einstiegspunkt: genug VRAM für SDXL-Inferenz, Llama 3 70B (4-Bit-Quantisierung) oder Whisper Large. Wechsle zu RTX 5090 oder A100, wenn du unkomprimierte 70B-Modelle ausführen oder LoRAs trainieren möchtest.

Wie schneidet die Preisgestaltung im Vergleich zu AWS / Google Cloud / Lambda Labs ab?

Für gleichmäßige Workloads in der Regel günstiger: Wir unterscheiden nicht zwischen 'On-Demand'- und 'Spot'-Preisen, und wir berechnen keine Egress-Gebühren. Konkurrenzpreise nennen wir nicht – die ändern sich monatlich. Mit der 14-tägigen Geld-zurück-Garantie können Sie Cloudzy direkt gegen Ihren aktuellen Anbieter testen – mit Ihren eigenen Benchmarks.

Gibt es einen Jahresrabatt?

Ja, 35 % Rabatt bei jährlicher Abrechnung auf jeden GPU-Tarif (etwas weniger als die 50 % bei regulären CPU-Tarifen, da die GPU-Hardware höhere Anschaffungskosten hat). Keine automatische Verlängerung: Du erhältst vor jedem Jahreszyklus eine Rechnung und kannst dann ohne unerwartete Kosten downgraden, upgraden oder kündigen.

Was ist mit dem Netzwerk? Sind es wirklich 40 Gbps?

Ja. Dieselben 40 Gbps Uplinks wie bei unserem Cloud-Flaggschiff VPS – ohne Egress-Gebühren für monatliche Transfers bis zur Plan-Inklusivleistung. Praktisch für das Verschieben großer Datensätze in den und aus dem GPU-Knoten: Ein 100 GB Hugging Face-Modell lässt sich bei voller Leitungsgeschwindigkeit in etwa 30 Sekunden herunterladen.

Kann ich Multi-Node-Training betreiben (mehrere GPU VPS zusammen)?

Ja, innerhalb einer Region. VPS im selben Rechenzentrum teilen sich ein lokales Netzwerk mit Sub-Millisekunden-Latenz. InfiniBand-Interconnect bieten wir derzeit nicht an – Multi-Node-Training über Standard-Ethernet eignet sich gut für Fine-Tuning und kleinere verteilte Jobs, ist aber kein Ersatz für Bare-Metal-HPC bei großem Pre-Training.

Gibt es eine Geld-zurück-Garantie für GPU-Tarife?

14 Tage, keine Fragen gestellt. Rückerstattung innerhalb eines Abrechnungszeitraums. Genug Zeit, um den CUDA-Durchsatz zu messen, einen echten Trainingsschritt auszuführen und zu entscheiden, ob Cloudzy zu deinem Workload passt.

Schluss mit Hyperscaler-Preisen.
Trainieren Sie auf dedizierten GPUs.

Karte auswählen, Region auswählen, klicken. CUDA ist bereits installiert.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar