50% rabat alle planer, begrænset periode. Fra kun $2.48/mo

AI VPS-hosting

AI-arbejdsbelastninger,
vælg din form.

Højtydende RAM CPU til inferens / RAG, eller NVIDIA-klasse GPU til træning, samme VPS panel.
Uafhængigt cloud siden 2008. Fra $2,48/md · root SSH på 60 sekunder.

4.6 · 728 reviews on Trustpilot

CPU fra $2.48/mo · GPU-planer på prisfastsættelse · 14-dages pengene-tilbage-garanti

~ ssh root@ai-nyc-001 forbundet
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installerer Ollama runtime... færdig
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
henter manifest · downloader 4,7 GB til NVMe
model klar · CPU inferens starter
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Hej! Hvordan kan jeg hjælpe dig i dag?"}
root@ai-nyc-001:~# _

AI VPS på et øjeblik

Cloudzy tilbyder AI VPS-hosting i to varianter: kraftfulde RAM CPU-planer til kvantiseret LLM-inferens, RAG og pipelines, samt NVIDIA-klasse GPU-planer til træning og kørsel af store modeller. Planerne kører på AMD EPYC, NVMe-lagring, og 40 Gbps opkoblinger på tværs af 12 regioner. CPU starter ved $2.48 per month; provisionering tager 60 sekunder; CUDA-images er forudinstalleret på GPU-planer. Cloudzy har opereret uafhængigt siden 2008, betjener 122.000+ udvikler, og er vurderet 4.6 / 5 by 728+ reviewers på Trustpilot.

CPU starter ved
$2.48 / month
GPU-typer
RTX · Pro
Klargøring
60 sekunder
Regioner
12 verden over
Oppetid SLA
99.95%
Penge-tilbage
14 dage

Derfor vælger AI-udviklere Cloudzy

En cloud, der skibe AI.

Fire grunde til, at din AI-workload hører hjemme her.

AMD EPYC + NVMe

Nyeste EPYC til CPU-inferens, NVMe til hurtig modelindlæsning. Dedikerede GPUs via PCI passthrough på GPU-planer.

14 dages pengene-tilbage-garanti

Kør din reelle inferenslatenstest på Cloudzy. Lever den ikke op til dit SLO, får du pengene tilbage inden 14 dage.

99,95% oppetid

Produktions-AI APIs kræver en host, der ikke genstarter under spidsbelastning. Oppetid for de seneste 30 dage offentliggøres løbende på status.cloudzy.com.

Ingeniører på chat

Problemer med CUDA-versioner, NCCL-fejl eller vLLM-tuning? Ingeniører med erfaring inden for AI-workloads hjælper dig - på minutter, ikke timer.

AI-stakken

Tag din framework med – uanset hvilken.
Det kører.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang kører alle uden problemer. Forudkonfigurerede CUDA-images på GPU-planer sparer dig for driverinstallationen. CPU-planer håndterer kvantiseret inferens og embedding-arbejdere til en lav pris.

Docker + nvidia-container-toolkit klar på GPU-planer
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
GPU LLM-betjening
Ollama
CPU + GPU LLM'er
Hugging Face
Transformers · Diffusers
pgvector
RAG-vektorlager
Qdrant
Vektor DB
LangChain
Agentframework

Brugssituationer

Det AI-teams kører på
Cloudzy.

LLM-inferens-API'er

Kør kvantiserede 7B–70B-modeller bag dit eget OpenAI-kompatible endpoint. vLLM eller TGI på GPU, llama.cpp / Ollama på store CPU. Fakturer dine kunder pr. token.

RAG-backends

Postgres + pgvector eller Qdrant på en CPU VPS, med valgfri GPU-boks til embedding/generering. NVMe sikrer, at vektorsøgninger forbliver hurtige.

Agentomgivelser

Langkørende LangChain- eller LlamaIndex-agenter, der kalder OpenAI/Anthropic API og dine egne data. En statisk IP holder tool-calling stabilt.

Billed- og videogenerering

Stable Diffusion, SDXL, ComfyUI, videomodeller på RTX-class GPUs. NVMe lader dig skifte modeller på sekunder, ikke minutter.

Finjustering og træning

LoRA / QLoRA fine-tuning på RTX-klasse GPU'er, fuld parametertræning på datacenter-klasse GPUs. CUDA, NCCL og PyTorch er klar fra start.

Indlejringsarbejdere

Kør en sentence-transformers worker på en 16–32 GB CPU VPS og embed millioner af dokumenter uden at betale per-kald SaaS-priser.

60s
Klargøring
40 Gbps
Oplink
NVMe-kun
Lagring
12
Regioner
99.95%
Oppetid SLA
14 dage
Penge-tilbage

Globalt netværk

12 regioner. Fire kontinenter.
Inferenslatens? Løst.

Placer din AI API tæt på dine kunder. Kombiner en CPU-gateway i én region med en GPU-boks i en anden.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI-planer

Kvantiserede LLM'er · RAG · Indlejringer. CPU er nok.

Mange AI-arbejdsgange er CPU-begrænsede. Timebetaling · 50 % rabat på alle planer · GPU-planer vises separat på /pricing.

12 GB DDR5

RAG-backend · vektor-DB · embeddings

$34.98 /md
$69.95/mo −50%
Implementer nu
14 dages pengene-tilbage-garanti
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Mellemstor CPU inference · API gateway

$49.98 /md
$99.95/mo −50%
Implementer nu
14 dages pengene-tilbage-garanti
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Ofte stillede spørgsmål. AI VPS

Almindelige spørgsmål, Direkte svar.

Hvad er en AI VPS?

En AI VPS er en Linux cloud-server dimensioneret og konfigureret til AI-arbejdsbelastninger, høj RAM og EPYC kerner til CPU-inferens og RAG, eller NVIDIA-klasse GPUs til træning og servering af store modeller. Du SSH ind, installerer din stak, og kører. Samme VPS, forskellige former til forskellige opgaver.

Har jeg brug for en GPU, eller er CPU nok?

Det afhænger af modellen. Kvantiserede LLM-modeller i 7B-klassen (int4 / int8 via llama.cpp eller Ollama) kører fint på en CPU-plan med 16–32 GB. Embedding-modeller, vektordatabaser (Qdrant, Weaviate, pgvector) og RAG-pipelines er for det meste CPU-bundne. Til træning, større model-serving eller alt, der kræver høj throughput, skal du bruge en GPU-plan.

Kan jeg køre en API til inferens bag en load balancer?

Ja. Kør vLLM, TGI eller din egen FastAPI-service på en GPU-server, og sæt en lille CPU VPS foran som API-gateway og rate limiter. Begge deler et privat netværk i samme region. 40 Gbps sikrer, at gateway'en aldrig er flaskehalsen.

Kan jeg hoste et RAG-backend?

Ja, og det er et af de mest almindelige setups. En CPU VPS med 16–32 GB kører Postgres + pgvector eller Qdrant til en lav pris, mens du kalder en GPU VPS eller hostet LLM til generering. NVMe gør vektor-forespørgsler hurtige, og EPYC håndterer embedding-beregningen, når du kører i batches.

Hvilke AI-frameworks understøttes?

Alle sammen. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (på understøttet hardware), Hugging Face Transformers - installer via conda, pip eller Docker. GPU-planerne leveres med præinstallerede CUDA-images, og du har fuld root-adgang på alle planer.

Er GPU-erne delte?

Nej. GPU-planer bruger PCI passthrough - den GPU, du reserverer, er dedikeret til din VM med fuldt hukommelse og fuld clockfrekvens. CUDA, NVENC og NCCL opfører sig præcis som på en bare-metal-server. RTX-klasse til omkostningseffektiv inferens, datacenter-klasse til krævende træning.

Hvor meget VRAM har jeg brug for?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Er der en pengene-tilbage-garanti?

Ja, 14 dage fra købsdatoen, fuld refusion, ingen spørgsmål. Kør din rigtige inferens-latenstest og dit rigtige RAG-benchmark, og afgør om Cloudzy passer til dig, inden du binder dig til et år.

Hvor hurtigt er klargøringen?

Når betalingen er bekræftet, er din AI VPS klar på 60 sekunder. CPU eller GPU. GPU-planer leveres med præinstallerede CUDA-images, så `nvidia-smi` svarer inden for sekunder. CPU-planer leveres med Ubuntu LTS eller Debian - installer din AI-stak via conda eller pip på få minutter.

Kan jeg bruge dette i produktion?

Ja. 99,95 % uptime SLA, timebetaling, ingen bindingsperiode, dedikerede IP-adresser og mulighed for at skalere RAM/vCPU/storage live uden genopbygning. Mange af vores kunder kører AI-inferens og RAG APIs i produktion fra Cloudzy.

Klar, når du er det.
AI VPS på 60 sekunder.

Vælg det setup, din workload kræver. CPU til inferens og RAG; GPU til træning. Samme panel.

Intet kreditkort kræves · 14 dages pengene-tilbage-garanti · Annuller når som helst