50% zniżki wszystkie plany, oferta limitowana. Od $2.48/mo

Hosting AI VPS

obciążenia AI,
wybierz swój kształt.

Wysoka pamięć RAM CPU do wnioskowania / RAG lub GPU klasy NVIDIA do treningu, ten sam panel VPS.
Niezależna chmura od 2008 roku. Od $2,48/mies. · root SSH w 60 sekund.

4.6 · 706 reviews on Trustpilot

Procesor od $2.48/mo · Plany GPU włączone wycena · 14-dniowy zwrot pieniędzy

~ ssh root@ai-nyc-001 połączony
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | cii
Instalowanie środowiska wykonawczego Ollama... zakończone
root@ai-nyc-001:~# ollama uruchom llama3.1:8b-instruct-q4
wyciąganie manifestu · pobieranie 4,7 GB do NVMe
model gotowy · Rozpoczęcie wnioskowania procesora
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Witam! W czym mogę dzisiaj pomóc?"}
root@ai-nyc-001:~# _

AI VPS w skrócie

Cloudzy oferuje hosting AI VPS w dwóch kształtach, z dużą ilością pamięci RAM Plany CPU dotyczące skwantowanego wnioskowania LLM, RAG i rurociągów plus Klasa NVIDIA Plany GPU dotyczące szkolenia i obsługi dużych modeli. Plany trwają AMD EPYC, Pamięć NVMe, I 40 Gbps łącza w 12 regionów. Procesor zaczyna się od godz 2,48 $ miesięcznie; zaopatrzenie trwa 60 sekund; Obrazy CUDA są wstępnie przygotowane na planach GPU. Od tego czasu Cloudzy działa niezależnie 2008, obsługuje 122 000+ deweloperów, i ma ocenę 4.6 / 5 by 706+ reviewers na Trustpilot.

Procesor zaczyna się od godz
$2,48 / miesiąc
Typy GPU
RTX · Zawodowiec
Aprowizacja
60 sekund
Regiony
12 na całym świecie
SLA uptime
99.95%
Zwrot pieniędzy
14 dni

Dlaczego twórcy sztucznej inteligencji wybierają Cloudzy

Chmura, która statki AI.

Cztery powody, dla których Twoje obciążenie AI należy tutaj.

AMD EPYC + NVMe

Najnowszy EPYC do wnioskowania o procesorze, NVMe do szybkiego ładowania modeli. Dedykowane procesory graficzne poprzez przekazywanie PCI w planach GPU.

Zwrot w ciągu 14 dni

Uruchom prawdziwy test opóźnienia wnioskowania na Cloudzy. Jeśli nie pasuje do Twojego SLO, zwróć pieniądze w ciągu 14 dni.

Czas sprawności na poziomie 99,95%.

Produkcyjne interfejsy API AI wymagają hosta, który nie uruchamia się ponownie w godzinach szczytu. Umowa SLA z ostatnich 30 dni jest publicznie dostępna na status.cloudzy.com.

Inżynierowie na czacie

Utknąłeś na wersjach CUDA, błędach NCCL lub tuningu vLLM? Inżynierowie z doświadczeniem w zakresie obciążeń AI, minuty, a nie godziny.

Stos AI

Przynieś dowolne ramy.
To działa.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, wszystkie działają czysto. Wstępnie upieczone Obrazy CUDA na planach GPU pomijają taniec sterownika. Plany CPU obsługują wnioskowanie kwantyzowane i tanie osadzanie pracowników.

Docker + nvidia-container-toolkit gotowy na plany GPU
PyTorch
Procesor i karta graficzna
TensorFlow
Procesor i karta graficzna
vLLM
Obsługa GPU LLM
Ollama
Procesor + GPU LLM
Przytulanie Twarzy
Transformers · Diffusers
pgwektor
Sklep z wektorami RAG
Qdrant
Wektor DB
LangChain
Struktura agenta

Przypadki użycia

Na czym działają zespoły AI
Cloudzy.

Interfejsy API wnioskowania LLM

Obsługuj skwantyzowane LLM klasy 7B–70B za własnym punktem końcowym zgodnym z OpenAI. vLLM lub TGI na GPU, llama.cpp / Ollama na dużym procesorze. Rozliczaj klientów za pomocą symboli.

Backendy RAG

Postgres + pgvector lub Qdrant na CPU VPS, opcjonalny moduł GPU do osadzania/generowania. NVMe oznacza, że ​​wyszukiwanie wektorów pozostaje szybkie.

Czasy działania agenta

Długotrwali agenci LangChain lub LlamaIndex, którzy trafiają do interfejsów API OpenAI/Anthropic i własnych danych. Statyczny adres IP zapewnia stabilność wywoływania narzędzi.

Generowanie obrazu/wideo

Stable Diffusion, SDXL, ComfyUI, modele wideo na procesorach graficznych klasy RTX. NVMe umożliwia wymianę modeli w ciągu kilku sekund, a nie minut.

Dostrajanie i szkolenie

LoRA / QLoRA dostosowuje się do pełnego szkolenia parametrów klasy RTX na procesorach graficznych klasy centrum danych. Wstępnie upieczone CUDA, NCCL, PyTorch.

Osadzanie pracowników

Uruchom worker sentence-transformers na serwerze VPS z procesorem 16–32 GB, aby osadzać miliony dokumentów bez płacenia stawek SaaS za połączenie.

60s
Aprowizacja
40 Gbps
Łącze w górę
Tylko NVMe
Składowanie
12
Regiony
99.95%
SLA uptime
14 dni
Zwrot pieniędzy

Sieć globalna

12 regionów. Cztery kontynenty.
Opóźnienie wnioskowania rozwiązane.

Umieść API AI blisko swoich klientów. Sparuj bramę procesora w jednym regionie z modułem GPU w innym.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plany AI procesora

Kwantyzowane LLM · RAG · Osadzenia. Procesor wystarczy.

Wiele obciążeń AI jest powiązanych z procesorem. Rozliczenia godzinowe · 50% zniżki na wszystkie plany · Plany GPU wymienione osobno /wycena.

12 GB DDR5

Backend RAG · Vector DB · osadzanie

$34.98 /mies
$69.95/mo −50%
Wdróż teraz
Zwrot w ciągu 14 dni
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Procesor Ollama/vLLM
  • Root SSH · KVM
16 GB DDR5

Wnioskowanie o średniej wielkości procesorze · Brama API

$49.98 /mies
$99.95/mo −50%
Wdróż teraz
Zwrot w ciągu 14 dni
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Procesor Ollama/vLLM
  • Root SSH · KVM

Często zadawane pytania. AI-VPS

Częste pytania, konkretne odpowiedzi.

Co to jest VPS AI?

AI VPS to serwer w chmurze Linux skonfigurowany pod kątem obciążeń AI, dużej ilości pamięci RAM i rdzeni EPYC do wnioskowania CPU i RAG lub GPU klasy NVIDIA do szkoleń i obsługi dużych modeli. Podłączasz SSH, instalujesz stos i uruchamiasz. Ten sam VPS, różne kształty do różnych zadań.

Czy potrzebuję procesora graficznego, czy procesor będzie działał?

Zależy od modelu. Kwantyzowane procesory LLM klasy 7B (int4 / int8 przez llama.cpp lub Ollama) działają z powodzeniem na planie procesora 16–32 GB. Osadzanie modeli, wektorowe bazy danych (Qdrant, Weaviate, pgvector) i potoki RAG są w większości powiązane z procesorem. Do treningu, obsługi większych modeli lub czegokolwiek wymagającego dużej przepustowości potrzebujesz planu GPU.

Czy mogę uruchomić interfejs API wnioskowania za modułem równoważenia obciążenia?

Tak. Uruchom vLLM, TGI lub własną usługę FastAPI na GPU, umieść mały procesor VPS z przodu jako bramę API i ogranicznik szybkości. Obydwa korzystają z sieci prywatnej w tym samym regionie. 40 Gb/s oznacza, że ​​brama nigdy nie jest wąskim gardłem.

Czy mogę hostować backend RAG?

Tak i jest to jeden z najpopularniejszych kształtów. Na serwerze VPS CPU o pojemności 16–32 GB można tanio uruchomić Postgres + pgvector lub Qdrant, dzwonisz do VPS GPU lub hostowanego LLM w celu wygenerowania. NVMe sprawia, że ​​zapytania wektorowe są szybkie, EPYC obsługuje obliczenia osadzania podczas przetwarzania wsadowego.

Które platformy AI są obsługiwane?

Wszystkie. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (na odpowiednim sprzęcie), Hugging Face Transformers, instalacja przez conda, pip lub Docker. Wstępnie przygotowane obrazy CUDA na planach GPU, pełny root na każdym planie.

Czy procesory graficzne są wspólne?

Nie. Plany GPU korzystają z przejścia PCI, zarezerwowany GPU jest dedykowany dla Twojej maszyny wirtualnej, pełnej pamięci i pełnych zegarów. Wszystkie CUDA, NVENC, NCCL zachowują się tak samo jak na gołej metalowej obudowie. Klasa RTX do ekonomicznego wnioskowania, klasa centrum danych do wysokiej klasy szkoleń.

Ile pamięci VRAM potrzebuję?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Czy oferujecie gwarancję zwrotu pieniędzy?

Tak, 14 dni od zakupu, pełny zwrot pieniędzy, bez zadawania pytań. Przeprowadź prawdziwy test opóźnień wnioskowania, prawdziwy test porównawczy RAG i zdecyduj, czy Cloudzy pasuje, zanim zdecydujesz się na rok.

Jak szybkie jest przygotowanie serwera?

Po potwierdzeniu płatności Twój AI VPS będzie dostępny w ciągu 60 sekund. CPU lub GPU. Gotowe obrazy CUDA na planach GPU oznaczają, że `nvidia-smi` powraca w ciągu kilku sekund. Plany CPU są dostarczane z Ubuntu LTS lub Debian. Zainstaluj stos AI za pomocą Conda lub pip w ciągu kilku minut.

Czy mogę tego użyć w produkcji?

Tak. Umowa SLA na czas sprawności przez 99,95%, rozliczenia godzinowe, brak zobowiązań, dedykowane adresy IP i opcja skalowania pamięci RAM/vCPU/pamięci masowej na żywo bez przebudowy. Wielu naszych klientów korzysta z wnioskowania AI i interfejsów API RAG w środowisku produkcyjnym firmy Cloudzy.

Gotowi, kiedy ty jesteś.
AI VPS w 60 sekund.

Wybierz kształt, jakiego potrzebuje Twoje obciążenie pracą. Procesor do wnioskowania / RAG; Karta graficzna do treningu. Ten sam panel.

Bez karty kredytowej · Zwrot pieniędzy w ciągu 14 dni · Anuluj w dowolnej chwili