LLM závěr
Podávejte Llama 3, Mistral, DeepSeek nebo Qwen s vLLM nebo Text Generation Inference. RTX 4090 zvládá 70B při 4bitech, RTX 5090 zvládá 70B při 8bitech, A100 zvládá nekvantované.
Vyberte zemi, abyste viděli Cloudzy ve svém jazyce.
GPU VPS hosting
Plný průchod GPU. RTX 6000 Pro, A100, RTX 5090, RTX 4090. Předinstalované CUDA, cuDNN, PyTorch ready.
Síť NVMe + 40 Gbps. Nezávislý cloud od roku 2008.
Od $506.35/mo · 35% sleva ročně · Není potřeba kreditní karta
GPU VPS na první pohled
Cloudzy prodává plány GPU VPS s vyhrazenými RTX 6000 Pro, Nvidia A100, RTX 5090, a RTX 4090 karty dovnitř 1× až 4× konfigurace, počínaje $506.35 per month. Každý plán je dodáván s předinstalovaným nejnovějším CUDA, cuDNN, a ovladače Nvidia, běží na AMD EPYC + DDR5 s Pouze NVMe úložiště a 40 Gbps uplinky a ustanovení v 60 sekund. GPU jsou vyhrazené průchozí kanály, nikoli vGPU, ne MIG, nesdíleno. Cloudzy od té doby funguje samostatně 2008 a má hodnocení 4.6 / 5 by 713+ reviewers na Trustpilotu.
Proč si týmy ML vybírají Cloudzy
Čtyři důvody, proč týmy přecházejí na Cloudzy z GPU AWS / GCP / hyperscaler.
Celá fyzická karta je vaše, žádné dělení vGPU, žádné oddíly MIG, žádné spory s ostatními tenanty. CUDA jádra, VRAM, PCIe pruhy, vše vyhrazené.
Nejnovější ovladače Nvidia, sada nástrojů CUDA a cuDNN předpečené do obrazu Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, pip install a trénujete.
Čisté úložiště NVMe, takže načítání datové sady není překážkou. Síť 40 Gb/s znamená, že vytažení 100GB modelu Hugging Face je dokončeno během několika sekund, nikoli minut.
Skuteční inženýři na chatu. Pomohli jsme dostatečnému množství týmů nastavit školení pro více GPU, ladit CUDA OOM a vyladit závěry Llama, že odpovědi se rychle vracejí.
Sestava GPU
RTX 6000 Pro pro profesionální vyvozování a vykreslování s 48 GB ECC VRAM. A100 pro školení a velké pracovní zátěže VRAM. RTX 5090 pro nejnovější závěr. RTX 4090 pro nákladově efektivní odvození až 70B (4bitové). K dispozici více plánů GPU, vyberte si, co váš rozpočet VRAM potřebuje.
Případy použití
Podávejte Llama 3, Mistral, DeepSeek nebo Qwen s vLLM nebo Text Generation Inference. RTX 4090 zvládá 70B při 4bitech, RTX 5090 zvládá 70B při 8bitech, A100 zvládá nekvantované.
Spusťte SDXL, Flux nebo jemně vyladěné kontrolní body Stable Diffusion pomocí ComfyUI nebo Automatic1111. RTX 4090 dosahuje 30+ snímků/min na standardním 1024×1024 SDXL.
LoRA, QLoRA, úplné jemné doladění. A100 je sweet spot pro 7B-13B nekvantizované jemné doladění; 4× A100 zvládne až 70B při správném shardingu (FSDP / DeepSpeed).
Cycles + OptiX na kartách RTX je nejrychlejší cesta pro animační studia. 24 GB VRAM na RTX 4090 pokrývá drtivou většinu produkčních scén s jedním snímkem.
Whisper Large, Faster-Whisper, YOLO, Segment Anything. Dokonce i plán RTX 4090 běží na těchto modelech s pohodlnou rezervou v reálném čase.
Generování vkládání, vyhledávací kanály, předzpracování datových sad. Plaťte každou hodinu, spusťte úlohu, zaznamenejte výstup, zničte krabici, levněji než pronájem na AWS/GCP při stejném pracovním zatížení.
Ceny
Roční vyúčtování je aktuálně 35% sleva na každém plánu GPU.
FAQ. GPU VPS
Vyberte kartu, vyberte region, klikněte. CUDA je již nainstalován.
Bez platební karty · Vrácení peněz do 14 dnů · Zruš kdykoli