LLM inference API
Poskytujte kvantované LLM třídy 7B–70B za svým vlastním koncovým bodem kompatibilním s OpenAI. vLLM nebo TGI na GPU, llama.cpp / Ollama na velkém CPU. Fakturujte svým zákazníkům tokenem.
Vyberte zemi, abyste viděli Cloudzy ve svém jazyce.
AI VPS hosting
CPU s vysokou RAM pro inferenci / RAG nebo GPU třídy NVIDIA pro trénink, stejný panel VPS.
Nezávislý cloud od roku 2008. Od 2,48 $/měs. · root SSH za 60 vteřin.
CPU od $2.48/mo · Plány GPU zapnuty stanovení cen · 14denní vrácení peněz
AI VPS na první pohled
Cloudzy nabízí AI VPS hosting ve dvou tvarech, high-RAM CPU plánuje kvantovanou inferenci LLM, RAG a potrubí, plus třídy NVIDIA Plány GPU pro školení a obsluhu velkých modelů. Plány běží dál AMD EPYC, NVMe úložiště, a 40 Gbps uplinky napříč 12 regionů. CPU začíná v 2,48 $ měsíčně; zajišťování trvá 60 sekund; Obrázky CUDA jsou předpečené na plánech GPU. Cloudzy od té doby funguje samostatně 2008, slouží 122 000+ vývojářů, a má hodnocení 4.6 / 5 by 706+ reviewers na Trustpilotu.
Proč si tvůrci AI vybírají Cloudzy
Čtyři důvody, proč vaše pracovní zátěž AI patří sem.
Nejnovější EPYC pro odvození CPU, NVMe pro rychlé načítání modelu. Vyhrazené GPU přes PCI passthrough na GPU plánech.
Spusťte test skutečné inferenční latence na Cloudzy. Pokud nevyhovuje vašemu SLO, vraťte peníze do 14 dnů.
Produkční AI API potřebují hostitele, který se během špičky nerestartuje. SLA za posledních 30 dní veřejně sledovaná na status.cloudzy.com.
Zasekli jste se na verzích CUDA, chybách NCCL nebo ladění vLLM? Inženýři se zkušenostmi s pracovní zátěží AI, minuty ne hodiny.
Zásobník AI
PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, všechny běží čistě. Předpečené Obrázky CUDA na plánech GPU přeskakují tanec řidiče. Plány CPU zpracovávají kvantovanou inferenci a levně zabudovávat pracovníky.
Případy použití
Poskytujte kvantované LLM třídy 7B–70B za svým vlastním koncovým bodem kompatibilním s OpenAI. vLLM nebo TGI na GPU, llama.cpp / Ollama na velkém CPU. Fakturujte svým zákazníkům tokenem.
Postgres + pgvector nebo Qdrant na CPU VPS, volitelný GPU box pro vkládání/generování. NVMe znamená, že vektorová vyhledávání zůstanou svižná.
Dlouho fungující agenti LangChain nebo LlamaIndex, kteří zasahují do OpenAI/Anthropic API a vašich vlastních dat. Statická IP udržuje volání nástroje stabilní.
Stabilní difúze, SDXL, ComfyUI, video modely na GPU třídy RTX. NVMe vám umožní vyměnit modely během několika sekund, nikoli minut.
LoRA / QLoRA dolaďuje na třídu RTX, školení s plnými parametry na GPU třídy datových center. Předpečené CUDA, NCCL, PyTorch.
Spusťte pracovníka pro transformaci vět na 16–32 GB CPU VPS pro vložení milionů dokumentů bez placení sazeb SaaS za volání.
Globální síť
Umístěte své AI API blízko svým zákazníkům. Spárujte bránu CPU v jedné oblasti s boxem GPU v jiné.
Plány CPU AI
Mnoho úloh AI je vázáno na CPU. Hodinová fakturace · 50% sleva na všechny plány · Plány GPU uvedené samostatně na /cena.
Kvantovaná 7B inference · CPU
RAG backend · vektorová DB · vložení
Středně velká inference CPU · Brána API
CPU s velkou RAM · agenti · potrubí
FAQ. AI VPS
Vyberte si tvar, který vaše pracovní zatížení potřebuje. CPU pro odvození / RAG; GPU pro trénink. Stejný panel.
Bez platební karty · Vrácení peněz do 14 dnů · Zruš kdykoli