50% rabat alle planer, tidsbegrænset. Fra $2.48/mo

AI VPS-hosting

AI-arbejdsbelastninger,
vælg din form.

High-RAM CPU til inferens / RAG eller NVIDIA-klasse GPU til træning, samme VPS-panel.
Uafhængig cloud siden 2008. Fra 2,48 $/md. · root SSH på 60 sekunder.

4.6 · 706 reviews on Trustpilot

CPU fra $2.48/mo · GPU planlægger prissætning · 14-dages pengene-tilbage

~ ssh root@ai-nyc-001 tilsluttet
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installation af Ollama runtime... færdig
root@ai-nyc-001:~# ollama køre llama3.1:8b-instruct-q4
trækker manifest · downloader 4,7 GB til NVMe
model klar · CPU-inferens starter
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Hej! Hvordan kan jeg hjælpe dig i dag?"}
root@ai-nyc-001:~# _

AI VPS på et øjeblik

Cloudzy tilbyder AI VPS-hosting i to former, høj-RAM CPU planlægger kvantiseret LLM-inferens, RAG og pipelines, plus NVIDIA-klasse GPU-planer for træning og servering af store modeller. Planerne kører videre AMD EPYC, NVMe-lagring, og 40 Gbps uplinks på tværs af 12 regioner. CPU starter kl 2,48 $ om måneden; tilførsel tager 60 sekunder; CUDA-billeder er færdigbagte på GPU-planer. Cloudzy har fungeret uafhængigt siden 2008, betjener 122.000+ udviklere, og er bedømt 4.6 / 5 by 706+ reviewers på Trustpilot.

CPU starter kl
2,48 $ / måned
GPU typer
RTX · Pro
Forsyning
60 sekunder
Regioner
12 globalt
Oppetids-SLA
99.95%
Pengene tilbage
14 dage

Hvorfor AI-udviklere vælger Cloudzy

En sky, der skibe AI.

Fire grunde til, at din AI-arbejdsbyrde hører hjemme her.

AMD EPYC + NVMe

Seneste EPYC for CPU-inferens, NVMe for hurtige modelbelastninger. Dedikerede GPU'er via PCI-passthrough på GPU-planer.

14 dages pengene-tilbage-garanti

Kør din reelle slutningsforsinkelsestest på Cloudzy. Hvis det ikke passer til din SLO, refunderes inden for 14 dage.

99,95 % oppetid

Produktion AI API'er har brug for en vært, der ikke genstarter under peak. Sidste 30-dages SLA spores offentligt på status.cloudzy.com.

Ingeniører i chat

Sidder du fast i CUDA-versioner, NCCL-fejl eller vLLM-tuning? Ingeniører med erfaring med AI-arbejdsbelastning, minutter ikke timer.

AI-stakken

Medbring hvilken som helst ramme.
Den kører.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, alle kører rent. Forbagt CUDA-billeder på GPU-planer springer chaufførdansen over. CPU-planer håndterer kvantiseret inferens og indlejring af arbejdere billigt.

Docker + nvidia-container-toolkit klar til GPU-planer
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
GPU LLM servering
Ollama
CPU + GPU LLM'er
Krammer ansigt
Transformers · Diffusers
pgvektor
RAG vektor butik
Qdrant
Vektor DB
Langkæde
Agentramme

Brugsscenarier

Hvilke AI-hold kører på
Cloudzy.

LLM-inferens-API'er

Server kvantificerede 7B–70B-klasse LLM'er bag dit eget OpenAI-kompatible slutpunkt. vLLM eller TGI på GPU, llama.cpp / Ollama på big-CPU. Fakturer dine kunder med token.

RAG-backends

Postgres + pgvector eller Qdrant på en CPU VPS, valgfri GPU-boks til indlejring/generering. NVMe betyder, at vektoropslag forbliver hurtige.

Agent køretider

Langvarige LangChain- eller LlamaIndex-agenter, der rammer OpenAI/Anthropic API'er og dine egne data. Statisk IP holder værktøjsopkald stabilt.

Billed-/videogenerering

Stabil diffusion, SDXL, ComfyUI, videomodeller på RTX-klasse GPU'er. NVMe lader dig bytte modeller på få sekunder, ikke minutter.

Finjustering og træning

LoRA / QLoRA finjusterer på RTX-klasse, træning med fulde parametre på datacenter-klasse GPU'er. Forbagt CUDA, NCCL, PyTorch.

Indlejring af arbejdere

Kør en sætningstransformator på en 16-32 GB CPU VPS for at integrere millioner af dokumenter uden at betale SaaS-priser pr. opkald.

60s
Forsyning
40 Gbps
Uplink
Kun NVMe
Opbevaring
12
Regioner
99.95%
Oppetids-SLA
14 dage
Pengene tilbage

Globalt netværk

12 regioner. Fire kontinenter.
Inferensforsinkelse, løst.

Placer din AI API tæt på dine kunder. Par en CPU-gateway i én region med en GPU-boks i en anden.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI planer

Kvantiserede LLM'er · RAG · Indlejringer. CPU er nok.

Mange AI-arbejdsbelastninger er CPU-bundne. Timefakturering · 50 % rabat på alle planer · GPU-planer opført separat på /prisfastsættelse.

12 GB DDR5

RAG backend · vektor DB · indlejringer

$34.98 /md
$69.95/mo -50 %
Udrul nu
14 dages pengene-tilbage-garanti
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Mellemstørrelse CPU-inferens · API-gateway

$49.98 /md
$99.95/mo -50 %
Udrul nu
14 dages pengene-tilbage-garanti
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

FAQ. AI VPS

Typiske spørgsmål, klare svar.

Hvad er en AI VPS?

En AI VPS er en Linux-skyserver med størrelse og konfigureret til AI-arbejdsbelastninger, høj RAM og EPYC-kerner til CPU-inferens og RAG, eller NVIDIA-klasse GPU'er til træning og servering af store modeller. Du SSH ind, installerer din stack og kører. Samme VPS, forskellige former til forskellige job.

Har jeg brug for en GPU, eller fungerer CPU?

Afhænger af modellen. Kvantiserede 7B-klasse LLM'er (int4 / int8 via llama.cpp eller Ollama) kører nyttigt på en 16-32 GB CPU-plan. Indlejringsmodeller, vektordatabaser (Qdrant, Weaviate, pgvector) og RAG-pipelines er for det meste CPU-bundne. Til træning, servering af større modeller eller noget, der er tungt for gennemstrømning, vil du have en GPU-plan.

Kan jeg køre en inference API bag en load balancer?

Ja. Kør vLLM, TGI eller din egen FastAPI-tjeneste på en GPU-boks, sæt en lille CPU VPS foran som API-gateway og hastighedsbegrænser. Begge deler et privat netværk i samme region. 40 Gbps betyder, at gatewayen aldrig er flaskehalsen.

Kan jeg hoste en RAG-backend?

Ja, og det er en af ​​de mest almindelige former. En 16–32 GB CPU VPS kører Postgres + pgvector eller Qdrant billigt, du ringer til en GPU VPS eller hostet LLM for generering. NVMe gør vektorforespørgsler hurtige, EPYC håndterer indlejringsberegningen, når du batcherer.

Hvilke AI-frameworks understøttes?

Alle sammen. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (på den relevante hardware), Hugging Face Transformers, installer via conda, pip eller Docker. Forbagte CUDA-billeder på GPU-planerne, fuld rod på hver plan.

Er GPU'erne delt?

Nej. GPU-planer bruger PCI-passthrough, den GPU, du booker, er dedikeret til din VM, fuld hukommelse og fulde ure. CUDA, NVENC, NCCL opfører sig alle på samme måde som på en bar-metal boks. RTX-klasse til omkostningseffektiv inferens, datacenter-klasse til high-end træning.

Hvor meget VRAM har jeg brug for?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Er der en pengene-tilbage-garanti?

Ja, 14 dage fra køb, fuld refusion, ingen stillede spørgsmål. Kør din reelle slutningsforsinkelsestest, dit rigtige RAG-benchmark, og beslut om Cloudzy passer, før du forpligter dig til et år.

Hvor hurtigt er udrulning?

Når betalingen er bekræftet, er din AI VPS live om 60 sekunder. CPU eller GPU. Forbagte CUDA-billeder på GPU-planer betyder, at 'nvidia-smi' vender tilbage inden for få sekunder. CPU-planer leveres med Ubuntu LTS eller Debian, installer din AI-stak via conda eller pip om et par minutter.

Kan jeg bruge dette i produktionen?

Ja. 99,95 % oppetid SLA, timefakturering, ingen forpligtelser, dedikerede IP'er og mulighed for at skalere RAM/vCPU/lager live uden ombygning. Mange af vores kunder kører AI-inferens og RAG API'er i produktion fra Cloudzy.

Klar når du er.
AI VPS på 60 sekunder.

Vælg den form, din arbejdsbyrde har brug for. CPU til slutning / RAG; GPU til træning. Samme panel.

Intet kreditkort krævet · 14 dages pengene-tilbage-garanti · Opsig når du vil