Sleva 50% všechny plány, časově omezená nabídka. Od $2.48/mo

Hostování AI VPS

Úlohy AI,
vyberte si svůj plán.

Vysoký RAM CPU pro inferenci / RAG, nebo GPU třídy NVIDIA pro trénování – vše ve stejném panelu VPS.
Nezávislý cloud od roku 2008. Od 2,48 $/měs · root SSH za 60 sekund.

4.6 · 728 reviews on Trustpilot

CPU z $2.48/mo · Plány GPU na ceny · 14denní záruka vrácení peněz

~ ssh root@ai-nyc-001 připojen
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalace runtime Ollama... hotovo
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
stahování manifestu · přenos 4,7 GB do NVMe
model ready · CPU inference starting
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Ahoj! Jak ti dnes mohu pomoci?"}
root@ai-nyc-001:~# _

Přehled AI VPS

Cloudzy nabízí AI VPS hosting ve dvou variantách – cenově dostupné RAM CPU plány pro kvantizované LLM inference, RAG a pipeline, plus NVIDIA-class Plány GPU pro trénování modelů a nasazení velkých modelů. Plány běží na AMD EPYC, Úložiště NVMe, a 40 Gbps propojení přes 12 regionů. CPU začíná na $2.48 per month; zřizování trvá 60 sekund; CUDA obrazy jsou předinstalovány na plánech GPU. Cloudzy funguje nezávisle od roku 2008, slouží 122 000+ vývojářůa je ohodnocen 4.6 / 5 by 728+ reviewers na Trustpilot.

CPU začíná na
$2.48 / month
Typy GPU
RTX · Pro
Zřizování
60 sekund
Oblasti
12 celosvětově
Dostupnost SLA
99.95%
Vrácení peněz
14 dní

Proč vývojáři AI sází na Cloudzy

Cloud, který lodě AI.

Čtyři důvody, proč vaše AI úlohy patří právě sem.

AMD EPYC + NVMe

Nejnovější EPYC pro inferenci CPU, NVMe pro rychlé načítání modelů. Dedikované GPUs přes PCI passthrough v plánech GPU.

14denní záruka vrácení peněz

Spusťte skutečný test inference latence na Cloudzy. Pokud nevyhovuje vašemu SLO, do 14 dnů vám vrátíme peníze.

99,95% dostupnost

Produkční AI APIs potřebují hostitele, který se v době špičky nepřestartuje. Dostupnost za posledních 30 dní je veřejně sledována na status.cloudzy.com.

Inženýři na chatu

Zaseknuli jste se na verzích CUDA, chybách NCCL nebo ladění vLLM? Inženýři se zkušenostmi s AI zátěží jsou k dispozici během minut, ne hodin.

Sada nástrojů AI

Přineste jakýkoliv framework.
Běží.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang – vše běží bez problémů. Předpřipravené CUDA image v plánech GPU vás zbaví starostí s ovladači. Plány CPU zvládají kvantizované inference a embedding workery za rozumnou cenu.

Docker + nvidia-container-toolkit připraveny v plánech GPU
PyTorch
CPU a GPU
TensorFlow
CPU a GPU
vLLM
Provoz GPU LLM
Ollama
CPU + LLM na GPU
Hugging Face
Transformers · Diffusers
pgvector
RAG vektorové úložiště
Qdrant
Vektorová databáze
LangChain
Framework agenta

Případy použití

Na čem pracují AI týmy
Cloudzy.

Inference LLM přes API

Provozujte kvantizované modely třídy 7B–70B za vlastním OpenAI-kompatibilním endpointem. vLLM nebo TGI na GPU, llama.cpp / Ollama na velkém CPU. Zákazníkům fakturujte po tokenech.

RAG backendy

Postgres + pgvector nebo Qdrant na CPU serveru VPS, volitelně GPU box pro embedding a generování. NVMe zajišťuje rychlé vektorové vyhledávání.

Běh agentů

Dlouhodobě běžící agenti LangChain nebo LlamaIndex, kteří volají OpenAI/Anthropic API a pracují s vlastními daty. Statická IP udržuje tool-calling stabilní.

Generování obrázků a videa

Stable Diffusion, SDXL, ComfyUI a video modely na GPU s RTX kartami. NVMe umožňuje výměnu modelů během sekund, ne minut.

Doladění a trénink

LoRA / QLoRA fine-tuning na RTX kartách, trénink celých parametrů na datacenterových GPU. CUDA, NCCL a PyTorch jsou předinstalované.

Vkládání pracovníků

Spusťte sentence-transformers worker na CPU serveru VPS s 16–32 GB a embedujte miliony dokumentů bez platby za každé volání SaaS API.

60s
Zřizování
40 Gbps
Spojení nahoru
Pouze NVMe
Úložiště
12
Oblasti
99.95%
Dostupnost SLA
14 dní
Vrácení peněz

Globální síť

12 regionů. Čtyři kontinenty.
Inference latence vyřešena.

Umístěte svůj AI API blízko zákazníků. Kombinujte CPU gateway v jednom regionu s GPU boxem v jiném.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plány CPU pro umělou inteligenci

Kvantizované LLM · RAG · Embeddingy. CPU je dostatek.

Mnoho AI úloh je omezeno výkonem CPU. Hodinové účtování · 50% sleva na všechny plány · GPU plány jsou uvedeny samostatně na /pricing.

12 GB DDR5

RAG backend · vektorová DB · embeddingy

$34.98 /měsíc
$69.95/mo −50%
Nasadit nyní
14denní záruka vrácení peněz
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Středně velká CPU inference · API gateway

$49.98 /měsíc
$99.95/mo −50%
Nasadit nyní
14denní záruka vrácení peněz
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Často kladené otázky. AI VPS

Běžné otázky, přímé odpovědi.

Co je AI VPS?

AI server VPS je Linux cloudový server dimenzovaný a nakonfigurovaný pro AI úlohy: vysoký počet RAM a EPYC jader pro CPU inference a RAG, nebo NVIDIA GPU pro trénink a provoz velkých modelů. Připojíte se, nainstalujete svůj stack a spustíte. Jeden typ serveru, různé konfigurace pro různé úlohy.

Potřebuji GPU, nebo mi postačí CPU?

Záleží na modelu. Kvantizované 7B třídy LLM (int4 / int8 přes llama.cpp nebo Ollama) fungují užitečně na CPU plánu s 16–32 GB. Embedding modely, vektorové databáze (Qdrant, Weaviate, pgvector) a RAG pipelines jsou převážně závislé na CPU. Pro trénování, větší servování modelů nebo cokoliv náročného na propustnost chcete GPU plán.

Mohu spustit inferenci API za load balancerem?

Ano. Spusťte vLLM, TGI nebo vlastní FastAPI službu na GPU stroji, před ni postavte malý CPU VPS jako API gateway a rate limiter. Oba sdílejí privátní síť ve stejném regionu. 40 Gbps znamená, že gateway nikdy nebude úzké hrdlo.

Mohu hostovat RAG backend?

Ano, a je to jeden z nejběžnějších scénářů. VPS s 16–32 GB RAM zvládne PostgreSQL + pgvector nebo Qdrant za rozumné peníze, generování pak řešíte přes vzdálený GPU server nebo hostovaný LLM. NVMe urychlí vektorové dotazy, CPU obstará výpočet embeddingů při dávkovém zpracování.

Které AI frameworky jsou podporovány?

Všechny. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (na příslušném hardwaru), Hugging Face Transformers, instalace přes conda, pip nebo Docker. Předpřipravené CUDA image u GPU plánů, plný root přístup u každého plánu.

Jsou GPUs sdílené?

Ne. Plány GPU využívají PCI passthrough – GPU, který si zarezervujete, je vyhrazen výhradně pro váš VM s plnou pamětí a plnými takty. CUDA, NVENC i NCCL se chovají stejně jako na fyzickém serveru. RTX řada pro cenově dostupný inference, datacentrová řada pro náročný trénink.

Kolik VRAM potřebuji?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Je k dispozici záruka vrácení peněz?

Ano, do 14 dní od nákupu dostanete plnou náhradu bez jakýchkoli otázek. Otestujte si skutečnou latenci inference, spusťte vlastní RAG benchmark a rozhodněte se, jestli vám Cloudzy vyhovuje, než se zavážete na rok.

Jak rychle probíhá zřízení serveru?

Po potvrzení platby je váš AI VPS spuštěný během 60 sekund. CPU nebo GPU. Plány GPU mají předinstalované CUDA image – `nvidia-smi` odpoví během pár sekund. Plány CPU jsou dodávány s Ubuntu LTS nebo Debian, váš AI stack nainstalujete přes conda nebo pip za pár minut.

Mohu to použít v produkčním prostředí?

Ano. Dostupnost 99,95 % SLA, fakturace po hodinách, žádné závazky, dedikované IP adresy a možnost škálovat RAM/vCPU/úložiště za provozu bez nutnosti přestavby. Mnoho našich zákazníků provozuje AI inference a RAG APIs v produkci od Cloudzy.

Připraven, když si přeješ.
AI VPS za 60 sekund.

Vyberte konfiguraci podle své zátěže. CPU pro inferenci a RAG, GPU pro trénování. Vše ve stejném panelu.

Bez nutnosti platební karty · 14denní záruka vrácení peněz · Zrušení kdykoliv