50% zniżki wszystkie plany, oferta czasowa. Od $2.48/mo

Hosting VPS dla sztucznej inteligencji

Obciążenia AI,
wybierz swój wariant.

Wysokiej RAM CPU do inference / RAG albo GPU klasy NVIDIA do trenowania - ten sam panel VPS.
Niezależna chmura od 2008 roku. Od $2,48/mies. · dostęp root SSH w 60 sekund.

4.6 · 728 reviews on Trustpilot

CPU z $2.48/mo · Plany GPU na wycena · 14-dniowy zwrot pieniędzy

~ ssh root@ai-nyc-001 połączony
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalowanie środowiska Ollama... gotowe
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
pobieranie manifestu · pobieranie 4,7 GB do NVMe
model ready · rozpoczęcie wnioskowania CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Cześć! Jak mogę Ci dzisiaj pomóc?"}
root@ai-nyc-001:~# _

Przegląd VPS dla AI

Cloudzy oferuje hosting AI VPS w dwóch wariantach: plany CPU o wysokiej RAM do skwantyzowanego inference LLM, RAG i potoków, oraz Klasa NVIDIA plany GPU do trenowania i obsługi dużych modeli. Plany działają na AMD EPYC, przechowywanie NVMe, i 40 Gbps połączenia między 12 regionów. CPU zaczyna się od $2.48 per month; przydzielanie trwa 60 sekund; obrazy CUDA są wstępnie skonfigurowane w planach GPU. Cloudzy działa niezależnie od 2008, służy Ponad 122 000 deweloperówi jest oceniany 4.6 / 5 by 728+ reviewers na Trustpilot.

CPU rozpoczyna się od
$2.48 / month
Typy GPU
RTX · Pro
Aprowizacja
60 sekund
Regiony
12 na całym świecie
Czas dostępności SLA
99.95%
Zwrot pieniędzy
14 dni

Dlaczego twórcy AI wybierają Cloudzy

Chmura, która wysyła AI.

Cztery powody, dla których Twoje workloady AI powinny działać właśnie tutaj.

AMD EPYC + NVMe

Najnowsze EPYC do inference CPU, NVMe dla szybkiego wczytywania modeli. Dedykowane GPU przez PCI passthrough w planach GPU.

14-dniowy zwrot pieniędzy

Uruchom swój rzeczywisty test latencji inference na Cloudzy. Jeśli nie spełnia Twojego SLO, otrzymasz zwrot w ciągu 14 dni.

99,95% czasu dostępności

Produkcyjne API AI potrzebują hosta, który nie restartuje się w godzinach szczytu. SLA z ostatnich 30 dni jest publicznie dostępny na status.cloudzy.com.

Inżynierowie na czacie

Problemy z wersjami CUDA, błędy NCCL albo strojenie vLLM? Inżynierowie z doświadczeniem w workloadach AI odpowiedzą w minuty, nie godziny.

Stos sztucznej inteligencji

Przynieś dowolny framework.
To działa.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang - wszystkie działają bez problemów. Wstępnie skonfigurowane obrazy CUDA w planach GPU eliminują żmudną konfigurację sterowników. Plany CPU obsługują skwantyzowany inference i embedding workery po niskich kosztach.

Docker + nvidia-container-toolkit gotowy na planach GPU
PyTorch
CPU i GPU
TensorFlow
CPU i GPU
vLLM
Serwowanie modeli GPU LLM
Ollama
Wnioskowanie CPU + GPU LLM
Hugging Face
Transformers · Diffusers
pgvector
Magazyn wektorów RAG
Qdrant
Baza danych wektorów
LangChain
Framework agenta

Przypadki użycia

Na czym pracują zespoły AI
Cloudzy.

Wnioskowanie LLM API

Serwuj skwantyzowane modele LLM klasy 7B–70B za własnym endpointem kompatybilnym z OpenAI. vLLM lub TGI na GPU, llama.cpp / Ollama na dużym CPU. Rozliczaj klientów per token.

Backendy RAG

Postgres + pgvector lub Qdrant na serwerze CPU VPS, opcjonalnie GPU do embeddingów i generowania. NVMe sprawia, że wyszukiwania wektorowe pozostają szybkie.

Środowiska uruchomieniowe agenta

Długo działające agenty LangChain lub LlamaIndex, które wywołują API OpenAI/Anthropic i Twoje własne dane. Stały IP utrzymuje stabilność wywoływania narzędzi.

Generowanie obrazów i wideo

Stable Diffusion, SDXL, ComfyUI, modele wideo na GPU klasy RTX. NVMe pozwala zamieniać modele w sekundy, nie minuty.

Fine-tuning i trenowanie

Fine-tuning LoRA / QLoRA na GPU klasy RTX, pełny trening parametrów na GPU klasy datacenter. CUDA, NCCL i PyTorch gotowe od razu.

Osadzanie pracowników

Uruchom worker sentence-transformers na serwerze CPU VPS z 16–32 GB, aby osadzać miliony dokumentów bez opłat per zapytanie.

60s
Aprowizacja
40 Gbps
Łącze wznoszące
Tylko NVMe
Przechowywanie
12
Regiony
99.95%
Czas dostępności SLA
14 dni
Zwrot pieniędzy

Sieć globalna

12 regionów. Cztery kontynenty.
Opóźnienia wnioskowania - rozwiązane.

Umieść swoje API AI blisko klientów. Połącz bramę CPU w jednym regionie z maszyną GPU w innym.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plany CPU AI

Skwantyzowane modele LLM · RAG · Embeddingi. CPU wystarczy.

Wiele zadań AI jest ograniczonych przez CPU. Rozliczanie godzinowe · 50% zniżki na wszystkie plany · Plany GPU wymienione osobno na /pricing.

12 GB DDR5

Backend RAG · baza wektorów · embeddingi

$34.98 /mies
$69.95/mo −50%
Wdróż teraz
14-dniowy zwrot pieniędzy
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Wnioskowanie CPU średniej skali · brama API

$49.98 /mies
$99.95/mo −50%
Wdróż teraz
14-dniowy zwrot pieniędzy
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Najczęściej zadawane pytania. AI VPS

Częste pytania proste odpowiedzi.

Czym jest AI VPS?

Serwer AI VPS to serwer chmurowy Linux zwymiarowany i skonfigurowany pod zadania AI - duże zasoby RAM i rdzenie EPYC do wnioskowania CPU i RAG, albo GPU klasy NVIDIA do trenowania i serwowania dużych modeli. Logujesz się, instalujesz swój stack i działasz. Ten sam typ serwera VPS, różne konfiguracje do różnych zadań.

Czy potrzebuję GPU, czy wystarczy CPU?

To zależy od modelu. Skwantyzowane modele klasy 7B (int4 / int8 przez llama.cpp lub Ollama) działają użytecznie na planie CPU z 16–32 GB. Modele embeddingowe, bazy wektorowe (Qdrant, Weaviate, pgvector) i pipeline'y RAG są w większości ograniczone przez CPU. Do trenowania, obsługi większych modeli lub zadań wymagających dużej przepustowości potrzebujesz planu GPU.

Czy mogę uruchomić serwer inferencing API za load balancerem?

Tak. Uruchom vLLM, TGI lub własny serwis FastAPI na maszynie GPU, a przed nim postaw mały VPS CPU jako bramę API i rate limiter. Obie maszyny działają w tej samej sieci prywatnej w tym samym regionie. Przy 40 Gbps brama nigdy nie staje się wąskim gardłem.

Czy mogę hostować backend RAG?

Tak, to jedno z najczęstszych zastosowań. VPS CPU z 16–32 GB obsługuje Postgres z pgvector lub Qdrant przy niskich kosztach, a do generowania odpowiedzi wywołujesz VPS GPU lub hostowany LLM. NVMe sprawia, że zapytania wektorowe działają szybko, a EPYC obsługuje obliczenia embeddingów przy przetwarzaniu wsadowym.

Jakie frameworki AI są obsługiwane?

Wszystkie. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (na odpowiednim sprzęcie), Hugging Face Transformers - instalacja przez conda, pip lub Docker. Gotowe obrazy CUDA w planach GPU, pełny dostęp root w każdym planie.

Czy GPU są współdzielone?

Nie. Plany GPU używają PCI passthrough - zarezerwowany GPU jest dedykowany wyłącznie Twojej VM, z pełną pamięcią i pełnymi taktowaniami. CUDA, NVENC i NCCL działają tak samo jak na maszynie bare-metal. Karty klasy RTX do ekonomicznego wnioskowania, karty klasy datacenter do zaawansowanego trenowania.

Ile VRAM potrzebuję?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Czy jest dostępna gwarancja zwrotu pieniędzy?

Tak, 14 dni od zakupu, pełny zwrot, bez pytań. Przeprowadź prawdziwy test opóźnień inferencing, prawdziwy benchmark RAG i zdecyduj, czy Cloudzy spełnia Twoje wymagania, zanim zobowiążesz się na rok.

Jak szybko następuje uruchomienie?

Po potwierdzeniu płatności Twój VPS AI jest gotowy w 60 sekund. CPU lub GPU. Gotowe obrazy CUDA w planach GPU sprawiają, że `nvidia-smi` odpowiada w ciągu kilku sekund. Plany CPU są dostarczane z Ubuntu LTS lub Debian - zainstaluj swój stack AI przez conda lub pip w kilka minut.

Czy mogę używać tego w produkcji?

Tak. Gwarancja dostępności 99,95%, rozliczanie godzinowe, brak zobowiązań, dedykowane IP oraz możliwość skalowania RAM/vCPU/storage bez przebudowy. Wielu naszych klientów uruchamia serwisy inferencing AI i RAG API w produkcji z poziomu Cloudzy.

Gotowe, kiedy Ty jesteś.
AI VPS w 60 sekund.

Wybierz konfigurację dopasowaną do swoich potrzeb. CPU do inferencji i RAG, GPU do trenowania. Jeden panel.

Bez karty kredytowej · 14-dniowa gwarancja zwrotu pieniędzy · Anuluj w dowolnym momencie