Wnioskowanie LLM
Obsługuj Lamę 3, Mistral, DeepSeek lub Qwen z vLLM lub wnioskowaniem o generowaniu tekstu. RTX 4090 obsługuje 70B przy 4-bitach, RTX 5090 obsługuje 70B przy 8-bitach, A100 obsługuje niekwantyzowane.
Wybierz kraj, aby zobaczyć Cloudzy w swoim języku.
Hosting VPS na GPU
Pełne przejście GPU. RTX 6000 Pro, A100, RTX 5090, RTX 4090. Wstępnie zainstalowany CUDA, cuDNN, gotowy na PyTorch.
Sieć NVMe + 40 Gb/s. Niezależna chmura od 2008 roku.
Od $506.35/mo · 35% zniżki rocznej · Karta kredytowa nie jest wymagana
GPU VPS w skrócie
Cloudzy sprzedaje plany GPU VPS z dedykowanymi RTX 6000 Pro, Nvidia A100, RTX 5090, I RTX4090 karty w 1× do 4× konfiguracje, począwszy od godz $506.35 per month. Każdy plan jest dostarczany z preinstalowaną najnowszą wersją CUDA, cuDNN, i sterowniki Nvidia, działa na AMD EPYC + DDR5 z Tylko NVMe pamięć i 40 Gbps łącza zwrotne i postanowienia w 60 sekund. GPU to dedykowane przejścia, a nie vGPU, nie MIG, nie udostępniane. Od tego czasu Cloudzy działa niezależnie 2008 i ma ocenę 4.6 / 5 by 713+ reviewers na Trustpilot.
Dlaczego zespoły ML wybierają Cloudzy
Cztery powody, dla których zespoły przenoszą się do Cloudzy z CPU graficznych AWS/GCP/hiperskaler.
Pełna karta fizyczna jest Twoja, bez dzielenia vGPU, bez partycji MIG i bez rywalizacji z innymi najemcami. Rdzenie CUDA, VRAM, linie PCIe, wszystkie dedykowane.
Najnowsze sterowniki Nvidia, zestaw narzędzi CUDA i cuDNN wstępnie dodane do obrazu Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, instalacja pip i trenujesz.
Pamięć masowa oparta na czystym NVMe, więc ładowanie zestawu danych nie jest wąskim gardłem. Sieć o przepustowości 40 Gb/s oznacza, że pobranie modelu Hugging Face o pojemności 100 GB trwa sekundy, a nie minuty.
Prawdziwi inżynierowie na czacie. Pomogliśmy wystarczającej liczbie zespołów skonfigurować szkolenie z wieloma CPU graficznymi, debugować OOM CUDA i dostroić wnioskowanie Lamy, aby odpowiedzi szybko przychodziły.
Skład GPU
RTX 6000 Pro do profesjonalnego wnioskowania i renderowania z 48 GB pamięci VRAM ECC. A100 do szkoleń i dużych obciążeń VRAM. RTX 5090 dla najnowszego wnioskowania. RTX 4090 do ekonomicznego wnioskowania do 70B (4-bity). Dostępne plany Multi-GPU — wybierz, czego potrzebuje Twój budżet VRAM.
Przypadki użycia
Obsługuj Lamę 3, Mistral, DeepSeek lub Qwen z vLLM lub wnioskowaniem o generowaniu tekstu. RTX 4090 obsługuje 70B przy 4-bitach, RTX 5090 obsługuje 70B przy 8-bitach, A100 obsługuje niekwantyzowane.
Uruchamiaj SDXL, Flux lub dostrojone punkty kontrolne Stable Diffusion za pomocą ComfyUI lub Automatic1111. RTX 4090 osiąga ponad 30 obrazów/min w standardowej rozdzielczości 1024×1024 SDXL.
LoRA, QLoRA, pełne dostrojenie. A100 jest idealnym miejscem do niekwantyzowanego dostrajania 7B-13B; 4× A100 obsługuje do 70B przy odpowiednim shardingu (FSDP / DeepSpeed).
Cycles + OptiX na kartach RTX to najszybsza ścieżka dla studiów animacji. 24 GB VRAM w RTX 4090 pokrywa zdecydowaną większość scen produkcyjnych z pojedynczą klatką.
Szept duży, szybszy szept, YOLO, segmentuj wszystko. Nawet plan RTX 4090 umożliwia wnioskowanie w czasie rzeczywistym w tych modelach z wygodnym zapasem mocy.
Generowanie osadzania, potoki pobierania, wstępne przetwarzanie zbioru danych. Płać co godzinę, uruchamiaj zadanie, zrób migawkę wyników, zniszcz skrzynkę, taniej niż wynajmowanie AWS/GCP przy tym samym obciążeniu.
Wycena
Obecnie obowiązuje rozliczenie roczne 35% zniżki w każdym planie GPU.
Często zadawane pytania. GPU VPS
Wybierz kartę, wybierz region, kliknij. CUDA jest już zainstalowana.
Bez karty kredytowej · Zwrot pieniędzy w ciągu 14 dni · Anuluj w dowolnej chwili