50 % Rabatt auf alle Pläne, begrenzte Zeit. Ab $2.48/mo

KI-VPS-Hosting

AI-Workloads,
wählen Sie Ihre Konfiguration.

High-RAM CPU für Inference / RAG oder NVIDIA-Klasse GPU für Training - dasselbe VPS-Panel.
Unabhängige Cloud, seit 2008. Ab 2,48 $/Monat · Root-SSH in 60 Sekunden.

4.6 · 728 reviews on Trustpilot

CPU ab $2.48/mo · GPU-Pläne auf Preise · 14-tägige Geld-zurück-Garantie

~ ssh root@ai-nyc-001 verbunden
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Ollama-Runtime wird installiert... fertig
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
Manifest wird abgerufen · 4,7 GB werden nach NVMe heruntergeladen
Modell bereit · CPU-Inferenz startet
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Hallo! Wie kann ich Ihnen heute helfen?"}
root@ai-nyc-001:~# _

AI VPS auf einen Blick

Cloudzy bietet AI VPS-Hosting in zwei Varianten: leistungsstarke CPU-Pläne für quantisierte LLM-Inferenz, RAG und Pipelines sowie NVIDIA-Klasse GPU-Pläne für Training und das Betreiben großer Modelle. Pläne laufen auf AMD EPYC, NVMe Speicher, und 40 Gbps Uplinks in 12 Regionen. CPU startet ab $2.48 per month; die Bereitstellung dauert 60 Sekunden; CUDA-Images sind auf GPU-Plänen vorinstalliert. Cloudzy ist seit 2008unabhängig tätig und betreut 122.000+ Entwicklerund wird bewertet mit 4.6 / 5 by 728+ reviewers auf Trustpilot.

CPU startet ab
$2.48 / month
GPU-Typen
RTX · Pro
Bereitstellung
60 Sekunden
Regionen
12 weltweit
Betriebszeit-SLA
99.95%
Geld-zurück
14 Tage

Warum KI-Entwickler Cloudzy wählen

Eine Cloud, die KI liefert.

Vier Gründe, warum Ihre KI-Workloads hierher gehören.

AMD EPYC + NVMe

Neueste EPYC für CPU-Inferenz, NVMe für schnelle Modell-Ladevorgänge. Dedizierte GPUs per PCI-Passthrough auf GPU-Plänen.

14 Tage Geld-zurück

Testen Sie Ihre echte Inferenz-Latenz auf Cloudzy. Passt es nicht zu Ihrem SLO, erhalten Sie innerhalb von 14 Tagen eine Rückerstattung.

99,95 % Verfügbarkeit

KI-APIs im Produktivbetrieb brauchen einen Host, der bei Spitzenlast nicht neu startet. Die SLA der letzten 30 Tage wird öffentlich auf status.cloudzy.com angezeigt.

Techniker im Chat

Probleme mit CUDA-Versionen, NCCL-Fehlern oder vLLM-Tuning? Techniker mit Erfahrung bei KI-Workloads antworten in Minuten, nicht in Stunden.

Der KI-Stack

Bringen Sie Ihr Framework mit.
Es läuft.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang – alles läuft problemlos. Vorkonfigurierte CUDA-Images auf GPU-Plänen ersparen Ihnen den Treiber-Aufwand. CPU-Pläne eignen sich günstig für quantisierte Inferenz und Embedding-Worker.

Docker + nvidia-container-toolkit bereit auf GPU-Plänen
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
GPU LLM-Serving
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
RAG-Vektorspeicher
Qdrant
Vektor-Datenbank
LangChain
Agentenframework

Anwendungsfälle

Womit AI-Teams arbeiten
Cloudzy.

LLM-Inferenz APIs

Stellen Sie quantisierte 7B–70B-Modelle hinter Ihrem eigenen OpenAI-kompatiblen Endpunkt bereit. vLLM oder TGI auf GPU, llama.cpp / Ollama auf großem CPU. Abrechnung mit Ihren Kunden nach Token.

RAG-Backends

Postgres + pgvector oder Qdrant auf einer CPU VPS, optional GPU-Box für Embedding/Generierung. NVMe hält Vector-Lookups schnell.

Agent-Laufzeiten

Langläufige LangChain- oder LlamaIndex-Agents, die OpenAI/Anthropic APIs und Ihre eigenen Daten nutzen. Statische IP hält Tool-Calling stabil.

Bild- / Videogenerierung

Stable Diffusion, SDXL, ComfyUI, Videomodelle auf RTX-class GPUs. NVMe ermöglicht Modellwechsel in Sekunden, nicht Minuten.

Fine-Tuning & Training

LoRA / QLoRA Fine-Tuning auf RTX-class, vollständiges Parametertraining auf Datacenter-class GPUs. CUDA, NCCL und PyTorch vorinstalliert.

Embedding-Worker

Betreiben Sie einen sentence-transformers-Worker auf einer 16–32 GB CPU VPS, um Millionen von Dokumenten zu embedden – ohne API-Kosten pro Aufruf.

60s
Bereitstellung
40 Gbps
Aufwärtsverbindung
Nur NVMe
Speicher
12
Regionen
99.95%
Betriebszeit-SLA
14 Tage
Geld-zurück

Globales Netzwerk

12 Regionen. Vier Kontinente.
Inferenzlatenz, gelöst.

Platzieren Sie Ihren AI API nah an Ihren Kunden. Kombinieren Sie ein CPU-Gateway in einer Region mit einer GPU-Box in einer anderen.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI-Pläne

Quantisierte LLMs · RAG · Embeddings. CPU reicht.

Viele AI-Workloads sind CPU-gebunden. Stündliche Abrechnung · 50 % Rabatt auf alle Pläne · GPU-Pläne separat aufgeführt auf /pricing.

12 GB DDR5

RAG-Backend · Vektor-Datenbank · Embeddings

$34.98 /Monat
$69.95/mo −50 %
Jetzt deployen
14 Tage Geld-zurück
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Mittelgroße CPU-Inferenz · API-Gateway

$49.98 /Monat
$99.95/mo −50 %
Jetzt deployen
14 Tage Geld-zurück
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Häufig gestellte Fragen. AI VPS

Häufige Fragen, klare Antworten.

Was ist ein AI VPS?

Ein AI VPS ist ein Linux Cloud-Server, der für AI-Workloads ausgelegt und konfiguriert ist: viele RAM und EPYC-Kerne für CPU-Inferenz und RAG, oder NVIDIA-GPUs für Training und das Ausführen großer Modelle. Einloggen, Stack installieren, loslegen. Derselbe VPS, verschiedene Konfigurationen für verschiedene Aufgaben.

Brauche ich eine GPU, oder reicht CPU?

Kommt auf das Modell an. Quantisierte 7B-Modelle (int4 / int8 via llama.cpp oder Ollama) laufen auf einem 16–32 GB CPU-Plan gut. Embedding-Modelle, Vektordatenbanken (Qdrant, Weaviate, pgvector) und RAG-Pipelines sind größtenteils CPU-gebunden. Für Training, größere Modelle oder alles mit hohem Durchsatz braucht man einen GPU-Plan.

Kann ich einen Inferenz-API hinter einem Load Balancer betreiben?

Ja. vLLM, TGI oder einen eigenen FastAPI-Dienst auf einer GPU-Instanz betreiben, einen kleinen CPU VPS davor als API-Gateway und Rate Limiter schalten. Beide teilen sich ein privates Netzwerk in derselben Region. Mit 40 Gbps wird das Gateway nie zum Flaschenhals.

Kann ich einen RAG-Backend hosten?

Ja, und das ist eine der häufigsten Konfigurationen. Ein 16–32 GB CPU VPS betreibt Postgres + pgvector oder Qdrant kostengünstig, die Generierung übernimmt ein GPU VPS oder ein gehostetes LLM. NVMe macht Vektorabfragen schnell, EPYC übernimmt die Embedding-Berechnung bei Batch-Verarbeitung.

Welche AI-Frameworks werden unterstützt?

Alle. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (auf geeigneter Hardware), Hugging Face Transformers - Installation via conda, pip oder Docker. Fertige CUDA-Images auf den GPU-Plänen, voller Root-Zugriff auf jedem Plan.

Sind die GPUs geteilt?

Nein. GPU-Pläne nutzen PCI-Passthrough. Die gebuchte GPU ist ausschließlich der eigenen VM zugewiesen, mit vollem Speicher und voller Taktrate. CUDA, NVENC und NCCL verhalten sich genauso wie auf Bare-Metal. RTX-Klasse für kosteneffiziente Inferenz, Datacenter-Klasse für anspruchsvolles Training.

Wie viel VRAM brauche ich?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Gibt es eine Geld-zurück-Garantie?

14 Tage nach dem Kauf, vollständige Rückerstattung, keine Fragen. Den echten Inferenz-Latenztest durchführen, den echten RAG-Benchmark laufen lassen und entscheiden, ob Cloudzy passt, bevor man sich für ein Jahr festlegt.

Wie schnell ist die Bereitstellung?

Nach Zahlungsbestätigung ist der AI VPS in 60 Sekunden live. CPU oder GPU. Fertige CUDA-Images auf GPU-Plänen bedeuten, dass `nvidia-smi` binnen Sekunden antwortet. CPU-Pläne werden mit Ubuntu LTS oder Debian geliefert, den AI-Stack dann in wenigen Minuten via conda oder pip installieren.

Kann ich das produktiv einsetzen?

Ja. 99,95 % Uptime SLA, stündliche Abrechnung, keine Mindestlaufzeit, dedizierte IPs und die Möglichkeit, RAM/vCPU/Storage live ohne Neuaufbau zu skalieren. Viele unserer Kunden betreiben AI-Inference- und RAG-APIs produktiv seit Cloudzy.

Bereit, wenn du es bist.
AI VPS in 60 Sekunden.

Wähle die Konfiguration, die dein Workload braucht. CPU für Inference / RAG; GPU für Training. Alles in einem Panel.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar