50 % Rabatt alle Pläne, begrenzte Zeit. Ab $2.48/mo

GPU-VPS-Hosting

RTX 6000 Pro. A100. RTX 5090.
Dediziert, nicht in Scheiben geschnitten.

Vollständiger GPU-Passthrough. RTX 6000 Pro, A100, RTX 5090, RTX 4090. Vorinstalliertes CUDA, cuDNN, PyTorch bereit.
NVMe + 40 Gbit/s Netzwerk. Unabhängige Cloud seit 2008.

4.6 · 713 reviews on Trustpilot

Ab $506.35/mo · 35 % Ermäßigung auf das Jahresangebot · Keine Kreditkarte erforderlich

~ ssh root@gpu-train-001 verbunden
root@gpu-train-001:~# nvidia-smi --query-gpu=name,memory.total,driver_version --format=csv
name, memory.total, driver_version
NVIDIA RTX 6000 Pro, 49152 MiB, 560.94
root@gpu-train-001:~# python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
True NVIDIA RTX 6000 Pro
root@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
Training step 1/2400 · 4.2s/step · loss=2.143
root@gpu-train-001:~# _

GPU-VPS auf einen Blick

Cloudzy verkauft GPU-VPS-Pläne mit dediziertem RTX 6000 Pro, Nvidia A100, RTX 5090, Und RTX 4090 Karten ein 1× bis 4× Konfigurationen, beginnend bei $506.35 per month. Bei jedem Plan ist die neueste Version vorinstalliert CUDA, cuDNN, und Nvidia-Treiber, läuft auf AMD EPYC + DDR5 mit Nur NVMe Speicher und 40 Gbps Uplinks und Bestimmungen in 60 Sekunden. GPUs sind dedizierter Passthrough, nicht vGPU. nicht MIG, nicht geteilt. Cloudzy ist seitdem unabhängig tätig 2008 und ist bewertet mit 4.6 / 5 by 713+ reviewers auf Trustpilot.

Einstiegspreis
$506.35 / mo
GPU-Typen
6000 Pro · A100 · 5090 · 4090
Konfigurationen
1× bis 4×
CUDA
Vorinstalliert
Jährlicher Rabatt
35 % Rabatt
Geld zurück
14 Tage

Warum sich ML-Teams für Cloudzy entscheiden

GPU berechnet das langweilige Art und Weise.

Die vier Gründe, warum Teams von AWS-/GCP-/Hyperscaler-GPUs zu Cloudzy wechseln.

Dedizierter GPU-Passthrough

Die vollständige physische Karte gehört dir, kein vGPU-Slicing, keine MIG-Partitionen, keine Konflikte mit anderen Mietern. CUDA-Kerne, VRAM, PCIe-Lanes, alle dediziert.

CUDA-fähige Bilder

Die neuesten Nvidia-Treiber, das CUDA-Toolkit und cuDNN sind vorab im Ubuntu-Image integriert. PyTorch, TensorFlow, JAX, Hugging Face, pip install und schon trainiere.

NVMe + 40 Gbit/s

Reiner NVMe-Speicher, sodass das Laden von Datensätzen nicht der Engpass ist. 40-Gbit/s-Netzwerk bedeutet, dass der Download eines 100-GB-Hugging-Face-Modells in Sekunden und nicht in Minuten abgeschlossen ist.

Menschlicher Support rund um die Uhr

Echte Ingenieure im Chat. Wir haben genügend Teams dabei geholfen, Multi-GPU-Training einzurichten, CUDA OOMs zu debuggen und die Llama-Inferenz zu optimieren, damit die Antworten schnell zurückkommen.

GPU-Aufstellung

Vier Familien.
Neun Möglichkeiten zur Skalierung.

RTX 6000 Pro für professionelle Inferenz und Rendering mit 48 GB ECC VRAM. A100 für Schulungen und große VRAM-Workloads. RTX 5090 für die neueste Schlussfolgerung. RTX 4090 für kostengünstige Inferenz bis zu 70B (4-Bit). Es sind mehrere GPU-Pläne verfügbar. Wähle aus, was dein VRAM-Budget benötigt.

Vollständiger GPU-Passthrough, nicht aufgeteilt, nicht geteilt
RTX 6000 Pro
48 GB GDDR6 ECC · Pro-grade
Nvidia A100
80 GB HBM2e · ML training
RTX 5090
32 GB GDDR7 · Blackwell
RTX 4090
24 GB GDDR6X · cost-effective
1× bis 4× GPU
Multi-GPU-Pläne verfügbar
CUDA vorinstalliert
PyTorch · TF · JAX bereit
Reines NVMe
Schnelle Datensatz-I/O
40 Gbps uplink
Ziehe 100-GB-Modelle in 30 Sekunden herunter

Anwendungsfälle

Die Arbeitsbelastungen unserer
Kunden trainieren tatsächlich.

LLM-Schlussfolgerung

Bediene Llama 3, Mistral, DeepSeek oder Qwen mit vLLM oder Text Generation Inference. RTX 4090 verarbeitet 70B bei 4-Bit, RTX 5090 verarbeitet 70B bei 8-Bit, A100 verarbeitet unquantisiert.

Stabile Diffusion · Bildgen

Führe SDXL, Flux oder fein abgestimmte Stable Diffusion Checkpoints mit ComfyUI oder Automatic1111 aus. Die RTX 4090 erreicht 30+ Bilder/Minute bei Standard-SDXL mit 1024 x 1024.

ML-Training + Feinabstimmung

LoRA, QLoRA, volle Feinabstimmung. A100 ist der ideale Ort für die unquantisierte Feinabstimmung von 7B-13B; 4× A100 verarbeitet bis zu 70B mit ordnungsgemäßem Sharding (FSDP/DeepSpeed).

3D-Rendering · Blender

Cycles + OptiX auf RTX-Karten ist der schnellste Weg für Animationsstudios. Der 24-GB-VRAM der RTX 4090 deckt die überwiegende Mehrheit der Einzelbild-Produktionsszenen ab.

Sprach- und Bildpipelines

Whisper Large, Faster-Whisper, YOLO, Segment Anything. Sogar der RTX 4090-Plan führt bei diesen Modellen Echtzeit-Inferenzen mit komfortablem Spielraum aus.

Batch-Jobs mit langer Laufzeit

Einbettungsgenerierung, Abrufpipelines, Datensatzvorverarbeitung. Zahle stündlich, führe den Auftrag aus, mache einen Snapshot der Ausgabe, zerstören du die Box – günstiger als die Miete von AWS/GCP für den gleichen Arbeitsaufwand.

80 GB
A100 VRAM
40 Gbps
Uplink
CUDA-fähig
Bild
4 ×
Maximale GPUs
35%
Jährlicher Ruhetag
14 Tage
Geld zurück

Preise

Empfohlene GPU-Pläne. Stündlich oder jährlich.

Die jährliche Abrechnung erfolgt derzeit 35 % Rabatt auf jedem GPU-Plan.

FAQ. GPU VPS

Häufige Fragen, klare Antworten.

Welche GPUs bietet Cloudzy an?

Vier Familien: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, professionell für Inferenz und Rendering), für Inferenz-Workloads und Rendering) und RTX 4090 (1× / 2× / 4×, kostengünstig für stabile Diffusion, LLM-Inferenz und 3D-Rendering).

Sind die GPUs dediziert oder gemeinsam genutzt?

Gewidmet. Jeder Plan ist ein Passthrough der vollständigen physischen GPU(s), kein Slice, kein vGPU, kein MIG. Die CUDA-Kerne, der VRAM, die PCIe-Bandbreite, alles gehört dir. Multi-GPU-Pläne verwenden NVLink, sofern die physische Hardware dies unterstützt (A100-Multi-GPU-Pläne).

Ist CUDA vorinstalliert?

Ja. Jeder GPU-VPS wird mit dem neuesten stabilen CUDA-Toolkit, cuDNN und Nvidia-Treibern ausgeliefert, die im Ubuntu-Image vorinstalliert sind. PyTorch, TensorFlow, JAX und der Hugging Face-Stack sind sofort einsatzbereit. du kannst ein neues Image auf ein sauberes Ubuntu ohne CUDA erstellen, wenn du eine bestimmte Version installieren möchten.

Wie viel VRAM erhalte ich?

Pro GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, Multi-GPU-Pläne summieren sich darauf, dass ein 4× A100-Plan über insgesamt 320 GB VRAM verfügt. Die Planliste oben zeigt den System-RAM separat.

Kann ich Stable Diffusion / Llama / Whisper auf einem GPU-VPS ausführen?

Ja. Der 1× RTX 4090-Plan ist ein guter Ausgangspunkt: genügend VRAM für SDXL-Inferenz, Llama 3 70B (4-Bit quantisiert) oder Whisper Large. Wechsle zu RTX 5090 oder A100, wenn du unquantisierte 70B-Modelle ausführen oder LoRAs trainieren müssen.

Wie sind die Preise im Vergleich zu AWS / Google Cloud / Lambda Labs?

Im Allgemeinen günstiger für stationäre Workloads, wir machen keinen Preisunterschied zwischen „On-Demand“ und „Spot“ und erheben keine Gebühren für ausgehenden Datenverkehr. Wir geben keine Wettbewerbszahlen an (diese ändern sich monatlich). Mit der 14-tägigen Geld-zurück-Garantie kannst du A/B mit deinem aktuellen Anbieter mit deinen eigenen Benchmarks vergleichen.

Gibt es einen Jahresrabatt?

Ja, 35 % Rabatt auf die jährliche Abrechnung für jeden GPU-Plan (weniger als die 50 % für den regulären CPU, da die Amortisierung der GPU-Hardware mehr kostet). Keine automatische Verlängerung; du erhältst vor jedem Jahreszyklus eine Rechnung, sodass du ohne überraschende Kosten ein Downgrade, ein Upgrade oder eine Kündigung durchführen können.

Wie wäre es mit Networking? Sind es wirklich 40 Gbit/s?

Ja. Dieselben 40-Gbit/s-Uplinks wie unser Flaggschiff-Cloud-VPS, ohne Ausgangsgebühren für monatliche Übertragungen bis zum Tarifkontingent. Nützlich für das Verschieben großer Datensätze in den GPU-Knoten und aus diesem heraus. Das Abrufen eines 100-GB-Hugging-Face-Modells dauert bei Zeilengeschwindigkeit etwa 30 Sekunden.

Kann ich ein Multi-Node-Training durchführen (mehrere GPU-VPS zusammen)?

Ja innerhalb einer Region. VPS im selben Rechenzentrum teilen sich das lokale Netzwerk mit einer Latenz von weniger als einer Millisekunde. Wir bieten derzeit keine InfiniBand-Verbindung an. Multi-Node-Training über Standard-Ethernet eignet sich gut für die Feinabstimmung und kleine verteilte Aufgaben, ist jedoch nicht mit Bare-Metal-HPC für große Vorschulungen konkurrenzfähig.

Geld-zurück-Garantie für GPU-Pläne?

14 Tage, keine Fragen gestellt. Rückerstattung innerhalb eines Abrechnungszeitraums. Genug Zeit, um den CUDA-Durchsatz zu vergleichen, einen echten Trainingsschritt durchzuführen und zu entscheiden, ob Cloudzy für deine Arbeitslast geeignet ist.

Hören du auf, Hyperscaler-Preise zu zahlen.
Trainieren du auf dedizierten GPUs.

Wähle eine Karte, wähle eine Region aus und klicke. CUDA ist bereits installiert.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar