50% korting alle abonnementen, tijdelijk aanbod. Vanaf $2.48/mo

AI VPS Hosting

AI-workloads,
kies je configuratie.

High-RAM CPU voor inferentie / RAG, of NVIDIA-class GPU voor training, hetzelfde VPS-panel.
Onafhankelijke cloud, sinds 2008. Vanaf $2,48/mnd · root SSH in 60 seconden.

4.6 · 728 reviews on Trustpilot

CPU van $2.48/mo · GPU-abonnementen op prijsstelling · 14 dagen niet-goed-geld-terug

~ ssh root@ai-nyc-001 verbonden
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Ollama runtime installeren... klaar
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
manifest ophalen · 4,7 GB downloaden naar NVMe
model klaar · CPU inferentie gestart
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Hallo! Hoe kan ik je vandaag helpen?"}
root@ai-nyc-001:~# _

AI VPS in een oogopslag

Cloudzy biedt AI VPS hosting in twee vormen: krachtige RAM CPU plannen voor gekwantiseerde LLM inferentie, RAG en pipelines, plus NVIDIA-klasse GPU-plannen voor training en het draaien van grote modellen. Plannen draaien op AMD EPYC, NVMe-opslag, en 40 Gbps uplinks erover 12 regio's. CPU begint bij $2.48 per monthprovisioning duurt 60 seconden; CUDA images zijn vooraf ingebakken op GPU-abonnementen. Cloudzy opereert onafhankelijk sinds 2008, dient 122.000+ ontwikkelaars, en is beoordeeld 4.6 / 5 by 728+ reviewers op Trustpilot.

CPU begint bij
$2.48 / month
GPU-typen
RTX · Pro
Inrichting
60 seconden
Regio's
12 wereldwijd
Bedrijfstijd SLA
99.95%
Geld terug
14 dagen

Waarom AI-ontwikkelaars kiezen voor Cloudzy

Een cloud die ships AI.

Vier redenen waarom jouw AI-workload hier thuishoort.

AMD EPYC + NVMe

Nieuwste EPYC voor CPU-inferentie, NVMe voor snelle modelladingen. Dedicated GPUs via PCI passthrough op GPU-plannen.

14 dagen geld-terug-garantie

Voer je echte inferentielatentietest uit op Cloudzy. Voldoet het niet aan je SLO, dan krijg je binnen 14 dagen je geld terug.

99,95% uptime

Productie AI APIs hebben een host nodig die niet herstart tijdens piekbelasting. De uptime van de afgelopen 30 dagen is publiek beschikbaar op status.cloudzy.com.

Ingenieurs op chat

Vastgelopen op CUDA-versies, NCCL-fouten of vLLM-tuning? Onze engineers hebben ervaring met AI-workloads en zijn er binnen minuten, niet uren.

De AI-stack

Welk framework je ook gebruikt.
Het loopt.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang — alles draait zonder gedoe. Voorgebakken CUDA-images op GPU-plannen slaan de driverinstallatie over. CPU-plannen verwerken gekwantiseerde inferentie en embedding-workers tegen lage kosten.

Docker + nvidia-container-toolkit beschikbaar op GPU-plannen
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
GPU LLM-servering
Ollama
CPU + GPU LLM's
Hugging Face
Transformers · Diffusers
pgvector
RAG vectoropslag
Qdrant
Vectordatabase
LangChain
Agent framework

Gebruiksscenario's

Waar AI-teams op draaien
Cloudzy.

LLM inference API's

Draai gekwantiseerde 7B–70B-modellen achter je eigen OpenAI-compatibele endpoint. vLLM of TGI op GPU, llama.cpp / Ollama op grote CPU. Factureer je klanten per token.

RAG backends

Postgres + pgvector of Qdrant op een CPU VPS, optioneel een GPU-box voor embedding/generatie. NVMe zorgt dat vector lookups snel blijven.

Agentrimstoestanden

Langlopende LangChain- of LlamaIndex-agents die OpenAI/Anthropic API's en je eigen data aanroepen. Een vast IP houdt tool-calling stabiel.

Afbeelding- en videogeneratie

Stable Diffusion, SDXL, ComfyUI, videomodellen op RTX-klasse GPUs. Met NVMe wissel je in seconden van model, niet in minuten.

Fijnafstemming & training

LoRA / QLoRA fine-tuning op RTX-klasse GPU's, full-parameter training op datacenter-klasse GPUs. CUDA, NCCL en PyTorch vooraf geïnstalleerd.

Insluitingsmedewerkers

Draai een sentence-transformers worker op een 16–32 GB CPU VPS om miljoenen documenten te embedden zonder per-aanroep SaaS-tarieven te betalen.

60s
Inrichting
40 Gbps
Opwaartse verbinding
Alleen NVMe
Opslag
12
Regio's
99.95%
Bedrijfstijd SLA
14 dagen
Geld terug

Globaal netwerk

12 regio's. Vier continenten.
Inferentievertraging? Opgelost.

Plaats je AI API dicht bij je klanten. Combineer een CPU-gateway in de ene regio met een GPU-server in een andere.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI-plannen

Gequantiseerde LLM's · RAG · Embeddings. CPU is genoeg.

Veel AI-workloads zijn CPU-gebonden. Uurtarief · 50% korting op alle plannen · GPU-plannen staan apart vermeld op /pricing.

12 GB DDR5

RAG-backend · vector DB · embeddings

$34.98 /maand
$69.95/mo −50%
Implementeer nu
14 dagen geld-terug-garantie
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Mid-size CPU inferentie · API gateway

$49.98 /maand
$99.95/mo −50%
Implementeer nu
14 dagen geld-terug-garantie
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Veelgestelde vragen. AI VPS

Veelgestelde vragen duidelijke antwoorden.

Wat is een AI VPS?

Een AI VPS is een Linux cloudserver die qua grootte en configuratie is afgestemd op AI-workloads: veel RAM en EPYC cores voor CPU inference en RAG, of NVIDIA-class GPUs voor training en het draaien van grote modellen. Je SSH in, installeert je stack en gaat aan de slag. Dezelfde VPS, verschillende vormen voor verschillende taken.

Heb ik een GPU nodig, of volstaat CPU?

Dat hangt af van het model. Gekwantiseerde LLM's van 7B-klasse (int4 / int8 via llama.cpp of Ollama) draaien prima op een CPU-plan van 16–32 GB. Embeddingmodellen, vectordatabases (Qdrant, Weaviate, pgvector) en RAG-pipelines zijn meestal CPU-gebonden. Voor training, het serveren van grotere modellen, of alles wat throughput-intensief is, heb je een GPU-plan nodig.

Kan ik een inference API achter een load balancer draaien?

Ja. Draai vLLM, TGI, of je eigen FastAPI-service op een GPU-machine, en zet een kleine CPU VPS voor als API-gateway en rate limiter. Beide delen een privénetwerk in dezelfde regio. Met 40 Gbps is de gateway nooit het knelpunt.

Kan ik een RAG-backend hosten?

Ja, en dat is een van de meest voorkomende configuraties. Een CPU VPS van 16–32 GB draait Postgres + pgvector of Qdrant voor weinig geld, en je roept een GPU VPS of gehoste LLM aan voor generatie. NVMe maakt vectorquery's snel, EPYC verwerkt de embeddingberekeningen bij batch-verwerking.

Welke AI-frameworks worden ondersteund?

Alle. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (op de juiste hardware), Hugging Face Transformers — installeer via conda, pip, of Docker. Kant-en-klare CUDA-images op GPU-plans, volledige root op elk plan.

Zijn de GPU's gedeeld?

Nee. GPU-plans gebruiken PCI passthrough. De GPU die je boekt is exclusief voor jouw VM, met volledig geheugen en volledige kloksnelheden. CUDA, NVENC en NCCL gedragen zich precies zoals op bare-metal. RTX-klasse voor kosteneffectieve inference, datacenterklasse voor zware training.

Hoeveel VRAM heb ik nodig?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Is er een geld-teruggarantie?

Ja, 14 dagen na aankoop, volledige terugbetaling, geen vragen. Voer je echte inference-latentietest en RAG-benchmark uit, en bepaal of Cloudzy geschikt is voordat je een jaarverplichting aangaat.

Hoe snel wordt een server opgezet?

Zodra de betaling is bevestigd, is je AI VPS binnen 60 seconden actief. CPU of GPU. Kant-en-klare CUDA-images op GPU-plans zorgen dat `nvidia-smi` binnen seconden reageert. CPU-plans worden geleverd met Ubuntu LTS of Debian — installeer je AI-stack via conda of pip in een paar minuten.

Kan ik dit in productie gebruiken?

Ja. 99,95% uptime SLA, facturering per uur, geen verplichtingen, dedicated IP's, en de mogelijkheid om RAM/vCPU/opslag live op te schalen zonder herinstallatie. Veel van onze klanten draaien AI-inference en RAG APIs in productie via Cloudzy.

Klaar als jij het bent.
AI VPS in 60 seconden.

Kies de configuratie die jouw workload nodig heeft. CPU voor inference / RAG; GPU voor training. Hetzelfde panel.

Geen creditcard vereist · 14 dagen geld-terug-garantie · Op elk moment opzegbaar