Wnioskowanie LLM
Uruchom Llama 3, Mistral, DeepSeek lub Qwen z vLLM lub Text Generation Inference. RTX 4090 obsługuje 70B przy kwantyzacji 4-bit, RTX 5090 obsługuje 70B przy 8-bit, A100 obsługuje wersje bez kwantyzacji.
Wybierz kraj, aby zobaczyć Cloudzy w swoim języku.
Hosting GPU VPS
Pełny passthrough GPU. RTX 6000 Pro, A100, RTX 5090, RTX 4090. CUDA, cuDNN i PyTorch zainstalowane od razu.
NVMe + sieć 40 Gbps. Niezależna chmura od 2008 roku.
Od $506.35/mo · 35% taniej przy płatności rocznej · Bez karty kredytowej
GPU VPS w skrócie
Cloudzy sprzedaje plany GPU VPS z dedykowanym RTX 6000 Pro, Nvidia A100, RTX 5090, oraz RTX 4090 karty w od 1× do 4× konfiguracje, począwszy od $506.35 per month. Każdy plan zawiera preinstalowaną najnowszą wersję CUDA, cuDNN oraz sterowniki Nvidia, działa na AMD EPYC + DDR5 z Tylko NVMe pamięć i 40 Gbps łączami i uruchamia się w 60 sekund. GPU to dedykowany passthrough - nie vGPU, nie MIG, nie współdzielony. Cloudzy działa niezależnie od 2008 i ma ocenę 4.7 / 5 by 747+ recenzentów na Trustpilot.
Dlaczego zespoły ML wybierają Cloudzy
Cztery powody, dla których zespoły przechodzą do Cloudzy z AWS / GCP lub hyperscalerów.
Fizyczna karta w całości należy do Ciebie - żadnego dzielenia na vGPU, żadnych partycji MIG, żadnej rywalizacji z innymi użytkownikami. Rdzenie CUDA, RAM, tory PCIe - wszystko dedykowane.
Najnowsze sterowniki Nvidia, toolkit CUDA i cuDNN wbudowane w obraz Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, pip install i możesz trenować.
Czyste dyski NVMe, żeby ładowanie danych nie było wąskim gardłem. Sieć 40 Gbps oznacza, że pobranie modelu Hugging Face o rozmiarze 100 GB zajmuje sekundy, nie minuty.
Prawdziwi inżynierowie na czacie. Pomagaliśmy już wielu zespołom konfigurować trening na wielu GPU, debugować CUDA OOM i strojić inferencję Llama - odpowiedzi przychodzą szybko.
Linia GPU
RTX 6000 Pro do profesjonalnej inferencji i renderowania z 48 GB ECC RAM. A100 do trenowania i zadań wymagających dużej ilości RAM. RTX 5090 do najnowszych zastosowań inferencji. RTX 4090 do inferencji modeli do 70B (4-bit) w dobrej cenie. Dostępne plany z wieloma GPU - wybierz konfigurację dopasowaną do budżetu RAM.
Przypadki użycia
Uruchom Llama 3, Mistral, DeepSeek lub Qwen z vLLM lub Text Generation Inference. RTX 4090 obsługuje 70B przy kwantyzacji 4-bit, RTX 5090 obsługuje 70B przy 8-bit, A100 obsługuje wersje bez kwantyzacji.
Uruchom SDXL, Flux lub dostrojone checkpointy Stable Diffusion z ComfyUI lub Automatic1111. RTX 4090 osiąga ponad 30 obrazów/min dla standardowego SDXL w rozdzielczości 1024×1024.
LoRA, QLoRA, pełny fine-tuning. A100 to najlepszy wybór do fine-tuningu modeli 7B-13B bez kwantyzacji; 4× A100 obsługuje do 70B przy odpowiednim shardingu (FSDP / DeepSpeed).
Cycles + OptiX na kartach RTX to najszybsza opcja dla studiów animacji. 24 GB VRAM w planie RTX 4090 pokrywa zdecydowaną większość produkcyjnych scen renderowanych w pojedynczej klatce.
Whisper Large, Faster-Whisper, YOLO, Segment Anything. Nawet plan RTX 4090 uruchamia inferencję w czasie rzeczywistym na tych modelach, z wyraźnym zapasem mocy obliczeniowej.
Generowanie embeddingów, pipeliny retrieval, preprocessing danych. Płacisz za godzinę, uruchamiasz zadanie, robisz snapshot wyników, usuwasz maszynę - taniej niż wynajem na AWS/GCP przy tym samym obciążeniu.
Ceny
Rozliczanie roczne jest teraz 35% rabatu na każdym planie GPU.
Często zadawane pytania. GPU VPS
Wybierz kartę, wybierz region, kliknij. CUDA jest już zainstalowana.
Bez karty kredytowej · Zwrot pieniędzy w ciągu 14 dni · Anuluj w dowolnej chwili