50% korting alle plannen, beperkte tijd. Vanaf $2.48/mo

AI VPS-hosting

AI-werklasten,
kies je vorm.

CPU met hoog RAM-geheugen voor inferentie/RAG, of GPU van NVIDIA-klasse voor training, hetzelfde VPS-paneel.
Onafhankelijke cloud, sinds 2008. Vanaf $2,48/mnd · root SSH in 60 seconden.

4.6 · 706 reviews on Trustpilot

CPU van $2.48/mo · GPU-plannen ingeschakeld prijzen · 14 dagen geld-terug-garantie

~ ssh root@ai-nyc-001 aangesloten
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sch
Ollama runtime installeren... klaar
root@ai-nyc-001:~# ollama voert lama3.1:8b-instruct-q4 uit
manifest trekken · 4,7 GB downloaden naar NVMe
model gereed · CPU-inferentie gestart
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response": Hallo! Hoe kan ik u vandaag helpen?"}
root@ai-nyc-001:~# _

AI VPS in één oogopslag

Cloudzy biedt AI VPS-hosting in twee vormen: veel RAM CPU-plannen voor gekwantiseerde LLM-inferentie, RAG en pijpleidingen, plus NVIDIA-klasse GPU-abonnementen voor training en service voor grote modellen. Plannen gaan door AMD EPYC, NVMe-opslag, En 40 Gbps uplinks in 12 regio's. CPU begint om $2,48 per maand; bevoorrading neemt 60 seconden; CUDA-images zijn vooraf gebakken op GPU-abonnementen. Cloudzy opereert sindsdien onafhankelijk 2008, bedient 122.000+ developers, en wordt beoordeeld met 4.6 / 5 by 706+ reviewers op Trustpilot.

CPU begint om
$2,48 / maand
GPU-typen
RTX · Pro
Voorzieningen
60 seconden
Regio's
12 wereldwijd
Uptime-SLA
99.95%
Geld terug
14 dagen

Waarom AI-ontwikkelaars voor Cloudzy kiezen

Een wolk die schepen AI.

Vier redenen waarom uw AI-werklast hier thuishoort.

AMD EPYC + NVMe

Nieuwste EPYC voor CPU-inferentie, NVMe voor snel laden van modellen. Toegewijde GPU's via PCI-passthrough op GPU-abonnementen.

14 dagen niet-goed-geld-terug

Voer uw echte gevolgtrekkingslatentietest uit op Cloudzy. Als het niet binnen uw SLO past, betaalt u binnen 14 dagen terug.

99,95% uptime

Productie-AI-API's hebben een host nodig die tijdens piekuren niet opnieuw opstart. SLA van de afgelopen 30 dagen openbaar bijgehouden op status.cloudzy.com.

Engineers in de chat

Zit u vast aan CUDA-versies, NCCL-fouten of vLLM-afstemming? Ingenieurs met AI-werklastervaring, minuten, geen uren.

De AI-stack

Neem welk raamwerk dan ook mee.
Het loopt.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, ze werken allemaal netjes. Voorgebakken CUDA-afbeeldingen op GPU-plannen slaan de chauffeursdans over. CPU-plannen verwerken gekwantiseerde gevolgtrekkingen en werknemers goedkoop in te bedden.

Docker + nvidia-container-toolkit klaar voor GPU-abonnementen
PyTorch
CPU en GPU
TensorFlow
CPU en GPU
vLLM
GPU LLM-service
Ollama
CPU + GPU LLM's
Knuffelend gezicht
Transformers · Diffusers
vector
RAG-vectorwinkel
Qdrant
Vector-DB
LangChain
Agent-framework

Use cases

Waar AI-teams op draaien
Cloudzy.

LLM-inferentie-API's

Serveer gekwantiseerde LLM's van de 7B-70B-klasse achter uw eigen OpenAI-compatibele eindpunt. vLLM of TGI op GPU, llama.cpp / Ollama op grote CPU. Factureer uw klanten per token.

RAG-backends

Postgres + pgvector of Qdrant op een CPU VPS, optionele GPU-box voor embedden/generatie. NVMe betekent dat vectorzoekopdrachten pittig blijven.

Runtimes van agenten

Langlopende LangChain- of LlamaIndex-agents die gebruikmaken van OpenAI/Anthropic API's en uw eigen gegevens. Statische IP zorgt ervoor dat het bellen van tools stabiel blijft.

Beeld-/videogeneratie

Stabiele diffusie, SDXL, ComfyUI, videomodellen op GPU's van RTX-klasse. Met NVMe kunt u binnen enkele seconden in plaats van minuten van model wisselen.

Finetuning & training

LoRA / QLoRA verfijnt RTX-klasse, volledige parametertraining op GPU's van datacenterklasse. Voorgebakken CUDA, NCCL, PyTorch.

Het inbedden van werknemers

Voer een zinstransformatorenwerker uit op een CPU-VPS van 16-32 GB om miljoenen documenten in te sluiten zonder SaaS-tarieven per oproep te betalen.

60s
Voorzieningen
40 Gbps
Uplink
Alleen NVMe
Opslag
12
Regio's
99.95%
Uptime-SLA
14 dagen
Geld terug

Wereldwijd netwerk

12 regio's. Vier continenten.
Inferentielatentie, opgelost.

Plaats uw AI API dicht bij uw klanten. Koppel een CPU-gateway in de ene regio met een GPU-box in een andere regio.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI-plannen

Gekwantiseerde LLM's · RAG · Inbedding. CPU is voldoende.

Veel AI-workloads zijn CPU-gebonden. Facturering per uur · 50% korting op alle abonnementen · GPU-abonnementen afzonderlijk vermeld op /prijzen.

12 GB DDR5

RAG-backend · vector-DB · embeddings

$34.98 /mnd
$69.95/mo −50%
Nu uitrollen
14 dagen niet-goed-geld-terug
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Middelgrote CPU-gevolgtrekking · API-gateway

$49.98 /mnd
$99.95/mo −50%
Nu uitrollen
14 dagen niet-goed-geld-terug
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Veelgestelde vragen. AI-VPS

Veelgestelde vragen, directe antwoorden.

Wat is een AI-VPS?

Een AI VPS is een Linux-cloudserver die is gedimensioneerd en geconfigureerd voor AI-workloads, veel RAM en EPYC-cores voor CPU-inferentie en RAG, of GPU's van NVIDIA-klasse voor training en dienstverlening op grote modellen. Je SSH in, installeert je stack en draait. Dezelfde VPS, verschillende vormen voor verschillende banen.

Heb ik een GPU nodig, of werkt de CPU?

Afhankelijk van het model. Gekwantiseerde 7B-klasse LLM's (int4 / int8 via llama.cpp of Ollama) werken nuttig op een CPU-abonnement van 16-32 GB. Inbeddingsmodellen, vectordatabases (Qdrant, Weaviate, pgvector) en RAG-pijplijnen zijn meestal CPU-gebonden. Voor training, het bedienen van grotere modellen of andere zaken met een hoge doorvoer heb je een GPU-abonnement nodig.

Kan ik een inferentie-API achter een load balancer uitvoeren?

Ja. Voer vLLM, TGI of uw eigen FastAPI-service uit op een GPU-box, plaats een kleine CPU-VPS voorop als API-gateway en snelheidsbegrenzer. Beide delen een particulier netwerk in dezelfde regio. 40 Gbps betekent dat de gateway nooit het knelpunt is.

Kan ik een RAG-backend hosten?

Ja, en het is een van de meest voorkomende vormen. Een CPU VPS van 16-32 GB draait Postgres + pgvector of Qdrant goedkoop, u belt naar een GPU VPS of gehoste LLM voor generatie. NVMe maakt vectorquery's snel, EPYC zorgt voor de inbeddingscompute tijdens batchverwerking.

Welke AI-frameworks worden ondersteund?

Allemaal. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (op de juiste hardware), Hugging Face Transformers, installeren via conda, pip of Docker. Voorgebakken CUDA-afbeeldingen op de GPU-abonnementen, volledige root op elk plan.

Worden de GPU's gedeeld?

Nee. GPU-abonnementen maken gebruik van PCI-passthrough, de GPU die u boekt is gereserveerd voor uw VM, volledig geheugen en volledige klokken. CUDA, NVENC, NCCL gedragen zich allemaal hetzelfde als op een blanke metalen doos. RTX-klasse voor kosteneffectieve inferentie, datacenter-klasse voor hoogwaardige training.

Hoeveel VRAM heb ik nodig?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Is er een niet-goed-geld-terug-garantie?

Ja, 14 dagen na aankoop, volledige terugbetaling, geen vragen gesteld. Voer uw echte inferentielatentietest uit, uw echte RAG-benchmark, en beslis of Cloudzy past voordat u zich aan een jaar vastlegt.

Hoe snel verloopt de provisioning?

Zodra de betaling is bevestigd, is uw AI VPS binnen 60 seconden live. CPU of GPU. Voorgebakken CUDA-afbeeldingen op GPU-abonnementen zorgen ervoor dat `nvidia-smi` binnen enkele seconden terugkeert. CPU plans ship with Ubuntu LTS or Debian, install your AI stack via conda or pip in a few minutes.

Kan ik dit gebruiken in de productie?

Ja. 99,95% uptime SLA, facturering per uur, geen verplichtingen, speciale IP's en de optie om RAM/vCPU/opslag live te schalen zonder opnieuw te hoeven opbouwen. Veel van onze klanten gebruiken AI-inferentie en RAG API's in productie vanuit Cloudzy.

Klaar wanneer jij het bent.
AI VPS in 60 seconden.

Kies de vorm die uw werklast nodig heeft. CPU voor gevolgtrekking / RAG; GPU voor training. Hetzelfde paneel.

Geen creditcard nodig · 14 dagen niet-goed-geld-terug · altijd opzegbaar