50 % Rabatt alle Pläne, begrenzte Zeit. Ab $2.48/mo

AI VPS-Hosting

KI-Workloads,
Wähle Ihre Form.

CPU mit hohem RAM für Inferenz/RAG oder GPU der NVIDIA-Klasse für Training, dasselbe VPS-Panel.
Unabhängige Cloud, seit 2008. Ab 2,48 $/Monat · Root-SSH in 60 Sekunden.

4.6 · 706 reviews on Trustpilot

CPU von $2.48/mo · GPU plant weiter Preisgestaltung · 14 Tage Geld-zurück-Garantie

~ ssh root@ai-nyc-001 verbunden
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Die Installation der Ollama-Laufzeitumgebung ist erledigt
root@ai-nyc-001:~# ollama führt llama3.1:8b-instruct-q4 aus
Manifest abrufen · 4,7 GB auf NVMe herunterladen
Modell bereit · CPU-Inferenz wird gestartet
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response": "Hallo! Wie kann ich Ihnen heute helfen?"}
root@ai-nyc-001:~# _

AI VPS auf einen Blick

Cloudzy bietet AI-VPS-Hosting in zwei Formen an: High-RAM CPU plant quantisierte LLM-Inferenz, RAG und Pipelines, plus NVIDIA-Klasse GPU-Pläne für Training und Bereitstellung großer Modelle. Die Pläne laufen weiter AMD EPYC, NVMe-Speicher, Und 40 Gbps Uplinks in 12 Regionen. CPU startet um 2,48 $ pro Monat; Bereitstellung dauert 60 Sekunden; CUDA-Bilder werden auf GPU-Plänen vorgefertigt. Seitdem ist Cloudzy unabhängig tätig 2008, versorgt Über 122.000 Entwickler, und ist bewertet mit 4.6 / 5 by 706+ reviewers auf Trustpilot.

CPU startet um
2,48 $ / Monat
GPU-Typen
RTX · Pro
Bereitstellung
60 Sekunden
Regionen
12 weltweit
Uptime-SLA
99.95%
Geld zurück
14 Tage

Warum sich KI-Entwickler für Cloudzy entscheiden

Eine Wolke, die Schiffe KI.

Vier Gründe, warum Ihr KI-Workload hierher gehört.

AMD EPYC + NVMe

Neuestes EPYC für CPU-Inferenz, NVMe für schnelles Laden von Modellen. Dedizierte GPUs über PCI-Passthrough bei GPU-Plänen.

14 Tage Geld-zurück-Garantie

Führen Sie Ihren echten Inferenzlatenztest auf Cloudzy durch. Wenn es nicht zu Ihrem SLO passt, erhalten Sie innerhalb von 14 Tagen eine Rückerstattung.

99,95 % Verfügbarkeit

Produktions-KI-APIs benötigen einen Host, der während Spitzenzeiten nicht neu startet. SLA für die letzten 30 Tage wird öffentlich unter status.cloudzy.com verfolgt.

Ingenieure im Chat

Sie stecken bei CUDA-Versionen, NCCL-Fehlern oder vLLM-Tuning fest? Ingenieure mit KI-Workload-Erfahrung, Minuten statt Stunden.

Der KI-Stack

Bringen Sie einen beliebigen Rahmen mit.
Es läuft.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, alle laufen sauber. Vorgebacken CUDA-Bilder auf GPU-Plänen überspringen den Treibertanz. CPU-Pläne behandeln quantisierte Inferenz und Arbeitskräfte günstig einbetten.

Docker + NVIDIA-Container-Toolkit bereit für GPU-Pläne
PyTorch
CPU und GPU
TensorFlow
CPU und GPU
vLLM
GPU-LLM-Bereitstellung
Ollama
CPU + GPU-LLMs
Umarmendes Gesicht
Transformers · Diffusers
pgvector
RAG-Vektorspeicher
Qdrant
Vektor-DB
LangChain
Agenten-Framework

Anwendungsfälle

Worauf KI-Teams setzen
Cloudzy.

LLM-Inferenz-APIs

Stellen Sie quantisierte LLMs der Klassen 7B–70B hinter Ihrem eigenen OpenAI-kompatiblen Endpunkt bereit. vLLM oder TGI auf GPU, llama.cpp/Ollama auf großer CPU. Rechnungen Sie Ihren Kunden per Token.

RAG-Backends

Postgres + pgvector oder Qdrant auf einem CPU-VPS, optionale GPU-Box zum Einbetten/Generieren. NVMe bedeutet, dass Vektorsuchen schnell bleiben.

Agentenlaufzeiten

LangChain- oder LlamaIndex-Agenten mit langer Laufzeit, die auf OpenAI/Anthropic-APIs und Ihre eigenen Daten zugreifen. Statische IP sorgt für stabile Tool-Aufrufe.

Bild-/Videogenerierung

Stabile Diffusion, SDXL, ComfyUI, Videomodelle auf GPUs der RTX-Klasse. Mit NVMe können Sie Modelle in Sekunden statt Minuten austauschen.

Feinabstimmung & Schulung

LoRA/QLoRA optimiert das Training mit vollständigen Parametern der RTX-Klasse auf GPUs der Rechenzentrumsklasse. Vorgebackenes CUDA, NCCL, PyTorch.

Arbeiter einbetten

Führen Sie einen Satztransformator-Worker auf einem VPS mit 16–32 GB CPU aus, um Millionen von Dokumenten einzubetten, ohne SaaS-Gebühren pro Anruf zu zahlen.

60s
Bereitstellung
40 Gbps
Uplink
Nur NVMe
Lagerung
12
Regionen
99.95%
Uptime-SLA
14 Tage
Geld zurück

Globales Netzwerk

12 Regionen. Vier Kontinente.
Inferenzlatenz, gelöst.

Platzieren Sie Ihre KI-API in der Nähe Ihrer Kunden. Koppeln Sie ein CPU-Gateway in einer Region mit einer GPU-Box in einer anderen.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU-KI-Pläne

Quantisierte LLMs · RAG · Einbettungen. CPU reicht.

Viele KI-Workloads sind CPU-gebunden. Stündliche Abrechnung · 50 % Rabatt auf alle Pläne · GPU-Pläne separat aufgeführt auf /Preise.

12 GB DDR5

RAG-Backend · Vektor-DB · Einbettungen

$34.98 /Mo
$69.95/mo −50 %
Jetzt deployen
14 Tage Geld-zurück-Garantie
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM-CPU
  • Root SSH · KVM
16 GB DDR5

Mittelgroße CPU-Inferenz · API-Gateway

$49.98 /Mo
$99.95/mo −50 %
Jetzt deployen
14 Tage Geld-zurück-Garantie
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM-CPU
  • Root SSH · KVM

FAQ. KI-VPS

Häufige Fragen, klare Antworten.

Was ist ein KI-VPS?

Ein AI VPS ist ein Linux-Cloud-Server, der für KI-Workloads dimensioniert und konfiguriert ist, hohen RAM und EPYC-Kerne für CPU-Inferenz und RAG oder GPUs der NVIDIA-Klasse für Training und die Bereitstellung großer Modelle. Sie stellen eine SSH-Verbindung her, installieren Ihren Stack und führen ihn aus. Gleiches VPS, unterschiedliche Formen für unterschiedliche Aufgaben.

Benötige ich eine GPU oder funktioniert die CPU?

Hängt vom Modell ab. Quantisierte LLMs der 7B-Klasse (int4 / int8 über llama.cpp oder Ollama) laufen sinnvoll auf einem 16–32-GB-CPU-Plan. Einbettungsmodelle, Vektordatenbanken (Qdrant, Weaviate, pgvector) und RAG-Pipelines sind größtenteils CPU-gebunden. Für Schulungen, die Bereitstellung größerer Modelle oder alles, was einen hohen Durchsatz erfordert, brauchst du einen GPU-Plan.

Kann ich eine Inferenz-API hinter einem Load Balancer ausführen?

Ja. Führen Sie vLLM, TGI oder Ihren eigenen FastAPI-Dienst auf einer GPU-Box aus und stellen Sie einen kleinen CPU-VPS als API-Gateway und Ratenbegrenzer vor. Beide teilen sich ein privates Netzwerk in derselben Region. 40 Gbit/s bedeuten, dass das Gateway nie der Engpass ist.

Kann ich ein RAG-Backend hosten?

Ja, und es ist eine der häufigsten Formen. Auf einem CPU-VPS mit 16–32 GB läuft Postgres + pgvector oder Qdrant zu einem günstigen Preis. Zur Generierung wenden Sie sich an einen GPU-VPS oder ein gehostetes LLM. NVMe macht Vektorabfragen schnell, EPYC übernimmt die Einbettungsberechnung beim Stapeln.

Welche KI-Frameworks werden unterstützt?

Alle von ihnen. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, Sglang, MLX (auf der entsprechenden Hardware), Hugging Face Transformers, Installation über Conda, Pip oder Docker. Vorgefertigte CUDA-Bilder auf den GPU-Plänen, vollständiges Root auf jedem Plan.

Werden die GPUs gemeinsam genutzt?

Nein. GPU-Pläne verwenden PCI-Passthrough. Der von Ihnen gebuchte GPU ist für Ihre VM, den vollen Speicher und die vollen Takte reserviert. CUDA, NVENC und NCCL verhalten sich alle genauso wie auf einer Bare-Metal-Box. RTX-Klasse für kostengünstige Inferenz, Rechenzentrumsklasse für High-End-Training.

Wie viel VRAM benötige ich?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Gibt es eine Geld-zurück-Garantie?

Ja, 14 Tage ab Kauf, volle Rückerstattung, keine Fragen. Führen Sie Ihren echten Inferenzlatenztest, Ihren echten RAG-Benchmark, durch und entscheiden Sie, ob Cloudzy passt, bevor Sie sich auf ein Jahr festlegen.

Wie schnell ist die Bereitstellung?

Sobald die Zahlung bestätigt ist, ist Ihr AI VPS in 60 Sekunden live. CPU oder GPU. Vorgefertigte CUDA-Bilder auf GPU-Plänen bedeuten, dass „nvidia-smi“ innerhalb von Sekunden zurückgegeben wird. CPU-Pläne werden mit Ubuntu LTS oder Debian ausgeliefert. Installieren Sie Ihren KI-Stack über Conda oder Pip in wenigen Minuten.

Kann ich das in der Produktion verwenden?

Ja. 99,95 % Verfügbarkeits-SLA, stündliche Abrechnung, keine Verpflichtungen, dedizierte IPs und die Option, RAM/vCPU/Speicher live ohne Neuaufbau zu skalieren. Viele unserer Kunden führen KI-Inferenz und RAG-APIs in der Produktion von Cloudzy aus.

Bereit, wenn Sie es sind.
KI-VPS in 60 Sekunden.

Wähle die Form, die Ihre Arbeitsbelastung erfordert. CPU für Inferenz / RAG; GPU für das Training. Gleiches Panel.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar