50% sleva všechny plány, omezený čas. Od $2.48/mo

AI VPS hosting

zátěže AI,
vyberte si tvar.

CPU s vysokou RAM pro inferenci / RAG nebo GPU třídy NVIDIA pro trénink, stejný panel VPS.
Nezávislý cloud od roku 2008. Od 2,48 $/měs. · root SSH za 60 vteřin.

4.6 · 706 reviews on Trustpilot

CPU od $2.48/mo · Plány GPU zapnuty stanovení cen · 14denní vrácení peněz

~ ssh root@ai-nyc-001 připojeno
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalace runtime Ollamy... hotovo
root@ai-nyc-001:~# ollama run lama3.1:8b-instruct-q4
stahování manifestu · stahování 4,7 GB do NVMe
model připraven · Spuštění inference CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Dobrý den! Jak vám dnes mohu pomoci?"}
root@ai-nyc-001:~# _

AI VPS na první pohled

Cloudzy nabízí AI VPS hosting ve dvou tvarech, high-RAM CPU plánuje kvantovanou inferenci LLM, RAG a potrubí, plus třídy NVIDIA Plány GPU pro školení a obsluhu velkých modelů. Plány běží dál AMD EPYC, NVMe úložiště, a 40 Gbps uplinky napříč 12 regionů. CPU začíná v 2,48 $ měsíčně; zajišťování trvá 60 sekund; Obrázky CUDA jsou předpečené na plánech GPU. Cloudzy od té doby funguje samostatně 2008, slouží 122 000+ vývojářů, a má hodnocení 4.6 / 5 by 706+ reviewers na Trustpilotu.

CPU začíná v
2,48 $ / měsíc
Typy GPU
RTX · Pro
Poskytování zásob
60 sekund
Regiony
12 po celém světě
SLA dostupnosti
99.95%
Vrácení peněz
14 dní

Proč si tvůrci AI vybírají Cloudzy

Oblak, který lodě AI.

Čtyři důvody, proč vaše pracovní zátěž AI patří sem.

AMD EPYC + NVMe

Nejnovější EPYC pro odvození CPU, NVMe pro rychlé načítání modelu. Vyhrazené GPU přes PCI passthrough na GPU plánech.

Vrácení peněz do 14 dnů

Spusťte test skutečné inferenční latence na Cloudzy. Pokud nevyhovuje vašemu SLO, vraťte peníze do 14 dnů.

99,95% dostupnost

Produkční AI API potřebují hostitele, který se během špičky nerestartuje. SLA za posledních 30 dní veřejně sledovaná na status.cloudzy.com.

Inženýři na chatu

Zasekli jste se na verzích CUDA, chybách NCCL nebo ladění vLLM? Inženýři se zkušenostmi s pracovní zátěží AI, minuty ne hodiny.

Zásobník AI

Přineste jakýkoli rámec.
To běží.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, všechny běží čistě. Předpečené Obrázky CUDA na plánech GPU přeskakují tanec řidiče. Plány CPU zpracovávají kvantovanou inferenci a levně zabudovávat pracovníky.

Docker + nvidia-container-toolkit připravený na plánech GPU
PyTorch
CPU a GPU
TensorFlow
CPU a GPU
vLLM
Obsluhování GPU LLM
Ollama
CPU + GPU LLM
Objímání obličeje
Transformers · Diffusers
pgvector
RAG vektorový obchod
Qdrant
Vector DB
LangChain
Rámec agentů

Případy použití

Na čem běží týmy AI
Cloudzy.

LLM inference API

Poskytujte kvantované LLM třídy 7B–70B za svým vlastním koncovým bodem kompatibilním s OpenAI. vLLM nebo TGI na GPU, llama.cpp / Ollama na velkém CPU. Fakturujte svým zákazníkům tokenem.

RAG backendy

Postgres + pgvector nebo Qdrant na CPU VPS, volitelný GPU box pro vkládání/generování. NVMe znamená, že vektorová vyhledávání zůstanou svižná.

Runtime agenta

Dlouho fungující agenti LangChain nebo LlamaIndex, kteří zasahují do OpenAI/Anthropic API a vašich vlastních dat. Statická IP udržuje volání nástroje stabilní.

Generování obrázku / videa

Stabilní difúze, SDXL, ComfyUI, video modely na GPU třídy RTX. NVMe vám umožní vyměnit modely během několika sekund, nikoli minut.

Jemné ladění a trénování

LoRA / QLoRA dolaďuje na třídu RTX, školení s plnými parametry na GPU třídy datových center. Předpečené CUDA, NCCL, PyTorch.

Pracovníci vkládání

Spusťte pracovníka pro transformaci vět na 16–32 GB CPU VPS pro vložení milionů dokumentů bez placení sazeb SaaS za volání.

60s
Poskytování zásob
40 Gbps
Uplink
Pouze NVMe
Skladování
12
Regiony
99.95%
SLA dostupnosti
14 dní
Vrácení peněz

Globální síť

12 regionů. Čtyři kontinenty.
Inferenční latence, vyřešeno.

Umístěte své AI API blízko svým zákazníkům. Spárujte bránu CPU v jedné oblasti s boxem GPU v jiné.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plány CPU AI

Kvantované LLM · RAG · Vložení. CPU stačí.

Mnoho úloh AI je vázáno na CPU. Hodinová fakturace · 50% sleva na všechny plány · Plány GPU uvedené samostatně na /cena.

12 GB DDR5

RAG backend · vektorová DB · vložení

$34.98 /měs
$69.95/mo −50 %
Nasadit hned
Vrácení peněz do 14 dnů
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM
16 GB DDR5

Středně velká inference CPU · Brána API

$49.98 /měs
$99.95/mo −50 %
Nasadit hned
Vrácení peněz do 14 dnů
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM

FAQ. AI VPS

Běžné otázky, přímé odpovědi.

Co je AI VPS?

AI VPS je cloudový server Linux s velikostí a konfigurací pro pracovní zátěže AI, vysokou RAM a jádra EPYC pro CPU inference a RAG nebo GPU třídy NVIDIA pro školení a obsluhu velkých modelů. Připojíte SSH, nainstalujete svůj stack a spustíte. Stejné VPS, různé tvary pro různé práce.

Potřebuji GPU, nebo bude CPU fungovat?

Záleží na modelu. Kvantované LLM třídy 7B (int4 / int8 přes llama.cpp nebo Ollama) fungují užitečně na plánu CPU 16–32 GB. Vkládací modely, vektorové databáze (Qdrant, Weaviate, pgvector) a RAG pipeline jsou většinou vázány na CPU. Pro školení, obsluhu většího modelu nebo cokoliv náročného na propustnost potřebujete plán GPU.

Mohu spustit inferenční API za nástrojem pro vyrovnávání zatížení?

Ano. Spusťte vLLM, TGI nebo svou vlastní službu FastAPI na GPU boxu, vložte malý CPU VPS dopředu jako bránu API a omezovač rychlosti. Oba sdílejí privátní síť ve stejném regionu. 40 Gbps znamená, že brána nikdy není úzkým hrdlem.

Mohu hostit backend RAG?

Ano, a je to jeden z nejběžnějších tvarů. 16–32 GB CPU VPS provozuje Postgres + pgvector nebo Qdrant levně, vy zavoláte na GPU VPS nebo hostované LLM pro generování. NVMe dělá vektorové dotazy svižnými, EPYC zpracovává výpočet vkládání při dávkovém zpracování.

Které rámce AI jsou podporovány?

Všechny. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (na příslušném hardwaru), Hugging Face Transformers, instalace přes conda, pip nebo Docker. Předpečené obrazy CUDA na plánech GPU, úplný kořen každého plánu.

Jsou GPU sdílené?

Ne. Plány GPU používají PCI passthrough, GPU, který si zarezervujete, je věnován vašemu VM, plné paměti a plným hodinám. CUDA, NVENC, NCCL se všechny chovají stejně jako na holém plechu. Třída RTX pro nákladově efektivní odvození, třída datových center pro špičková školení.

Kolik VRAM potřebuji?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Je k dispozici záruka vrácení peněz?

Ano, 14 dní od nákupu, plné vrácení peněz, žádné otázky. Proveďte test skutečné inferenční latence, svůj skutečný benchmark RAG a rozhodněte se, zda Cloudzy vyhovuje, než se zavážete na rok.

Jak rychle probíhá zřízení?

Jakmile je platba potvrzena, vaše AI VPS je aktivní do 60 sekund. CPU nebo GPU. Předpečené obrazy CUDA na plánech GPU znamenají, že se `nvidia-smi` vrátí během několika sekund. Plány CPU se dodávají s Ubuntu LTS nebo Debian, nainstalujte si AI stack přes conda nebo pip během několika minut.

Mohu to použít ve výrobě?

Ano. 99,95% dostupnost SLA, hodinová fakturace, žádné závazky, vyhrazené adresy IP a možnost škálovat RAM/vCPU/úložiště za provozu bez přestavby. Mnoho našich zákazníků používá AI inference a RAG API ve výrobě od Cloudzy.

Připraveni, kdykoli jste vy.
AI VPS za 60 sekund.

Vyberte si tvar, který vaše pracovní zatížení potřebuje. CPU pro odvození / RAG; GPU pro trénink. Stejný panel.

Bez platební karty · Vrácení peněz do 14 dnů · Zruš kdykoli