Giảm 50% tất cả các gói, có thời hạn. Khởi điểm từ $2.48/mo

Hosting VPS GPU

RTX 6000 Pro. A100. RTX 5090.
Tài nguyên riêng, không chia sẻ.

Passthrough GPU toàn phần. RTX 6000 Pro, A100, RTX 5090, RTX 4090. Cài sẵn CUDA, cuDNN, PyTorch.
NVMe + mạng 40 Gbps. Đám mây độc lập từ năm 2008.

4.7 · 747 đánh giá trên Trustpilot

Khởi điểm từ $506.35/mo · Giảm 35% cho thanh toán hàng năm · Không cần thẻ tín dụng

~ ssh root@gpu-train-001 kết nối
root@gpu-train-001:~# nvidia-smi --query-gpu=name,memory.total,driver_version --format=csv
name, memory.total, driver_version
NVIDIA RTX 6000 Pro, 49152 MiB, 560.94
root@gpu-train-001:~# python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
True NVIDIA RTX 6000 Pro
root@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
Training step 1/2400 · 4.2s/step · loss=2.143
root@gpu-train-001:~# _

GPU tổng quan

Cloudzy cung cấp các gói GPU với RTX 6000 Pro, Nvidia A100, RTX 5090,RTX 4090 thẻ trong từ 1× đến 4× cấu hình, bắt đầu từ $506.35 per month. Mỗi gói được cài sẵn phiên bản mới nhất của CUDA, cuDNN, và driver Nvidia, chạy trên AMD EPYC + DDR5 với Chỉ NVMe lưu trữ và 40 Gbps băng thông uplink, và khởi động trong 60 giây. GPU là passthrough chuyên dụng, không phải vGPU, không phải MIG, không dùng chung. Cloudzy hoạt động độc lập từ 2008 và được đánh giá 4.7 / 5 by 747+ người đánh giá trên Trustpilot.

Giá khởi điểm
$506.35 / mo
Các loại GPU
6000 Pro · A100 · 5090 · 4090
Cấu hình
từ 1× đến 4×
CUDA
Được cài đặt sẵn
Chiết khấu hàng năm
Giảm 35%
Hoàn lại tiền
14 ngày

Tại sao các nhóm ML chọn Cloudzy

GPU tính toán theo cách thú vị.

Bốn lý do các nhóm chuyển sang Cloudzy từ AWS / GCP / GPU của hyperscaler.

GPU passthrough chuyên dụng

Toàn bộ card vật lý là của bạn, không cắt vGPU, không phân vùng MIG, không tranh tài nguyên với tenant khác. CUDA core, VRAM, PCIe lane, tất cả đều dành riêng cho bạn.

Image đã cài sẵn CUDA

Driver Nvidia, CUDA toolkit và cuDNN được tích hợp sẵn vào image Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, pip install là bạn có thể bắt đầu training ngay.

NVMe + 40 Gbps

Storage NVMe thuần túy đảm bảo việc tải dataset không còn là nút cổ chai. Mạng 40 Gbps cho phép tải một model Hugging Face 100 GB chỉ trong vài giây thay vì vài phút.

Hỗ trợ con người 24/7

Kỹ sư thực thụ hỗ trợ qua chat. Chúng tôi đã giúp nhiều nhóm thiết lập training đa GPU, debug CUDA OOM, và tinh chỉnh Llama inference, nên câu trả lời luôn đến nhanh.

Dòng GPU

Bốn gia đình.
Chín cách để mở rộng.

RTX 6000 Pro cho inference và rendering chuyên nghiệp với 48 GB ECC VRAM. A100 cho training và các workload VRAM lớn. RTX 5090 cho inference thế hệ mới nhất. RTX 4090 cho inference tiết kiệm chi phí đến 70B (4-bit). Có sẵn gói đa GPU, chọn theo ngân sách VRAM của bạn.

GPU passthrough toàn phần, không cắt lát, không dùng chung
RTX 6000 Pro
48 GB GDDR6 ECC · Pro-grade
Nvidia A100
80 GB HBM2e · ML training
RTX 5090
32 GB GDDR7 · Blackwell
RTX 4090
24 GB GDDR6X · cost-effective
1× đến 4× GPU
Có sẵn gói đa GPU
CUDA được cài đặt sẵn
PyTorch · TF · JAX sẵn sàng
NVMe Thuần
Tập dữ liệu I/O nhanh
40 Gbps uplink
Kéo xuống các mô hình 100 GB trong 30 giây

Trường hợp sử dụng

Các workload mà
khách hàng thực sự huấn luyện.

Suy luận LLM

Chạy Llama 3, Mistral, DeepSeek, hoặc Qwen với vLLM hoặc Text Generation Inference. RTX 4090 xử lý 70B ở 4-bit, RTX 5090 xử lý 70B ở 8-bit, A100 xử lý mô hình chưa lượng tử hóa.

Stable Diffusion · tạo ảnh

Chạy SDXL, Flux, hoặc các checkpoint Stable Diffusion đã fine-tune bằng ComfyUI hoặc Automatic1111. RTX 4090 đạt hơn 30 ảnh/phút với SDXL chuẩn 1024×1024.

Huấn luyện ML + fine-tuning

LoRA, QLoRA, full fine-tuning. A100 là lựa chọn tối ưu cho fine-tuning 7B-13B chưa lượng tử hóa; 4× A100 xử lý được đến 70B với sharding đúng cách (FSDP / DeepSpeed).

Kết xuất 3D · Blender

Cycles + OptiX trên card RTX là lựa chọn nhanh nhất cho studio làm hoạt hình. VRAM 24 GB trên RTX 4090 đáp ứng được phần lớn các cảnh production single-frame.

Pipeline xử lý giọng nói + thị giác máy tính

Whisper Large, Faster-Whisper, YOLO, Segment Anything. Ngay cả gói RTX 4090 cũng chạy inference thời gian thực trên các mô hình này với dư địa tài nguyên thoải mái.

Tác vụ batch chạy dài

Tạo embedding, pipeline retrieval, tiền xử lý dataset. Trả theo giờ, chạy xong việc, snapshot kết quả, xóa máy chủ - rẻ hơn thuê trên AWS/GCP cho cùng khối lượng công việc.

80 GB
A100 VRAM
40 Gbps
Liên kết lên
Sẵn sàng cho CUDA
Hình ảnh
4 ×
GPUs tối đa
35%
Giảm giá hàng năm
14 ngày
Hoàn lại tiền

Định giá

Các gói GPU nổi bật. Hàng giờ hoặc hàng năm.

Thanh toán hàng năm hiện đang Giảm 35% trên mọi gói GPU.

Câu hỏi thường gặp. GPU VPS

Câu hỏi thường gặp, câu trả lời thẳng thắn.

Cloudzy cung cấp những GPU nào?

Bốn dòng: RTX 6000 Pro (1×, 48 GB GDDR6 ECC VRAM, cấp chuyên nghiệp cho inference và rendering), Nvidia A100 (1× / 2× / 4×, dành cho huấn luyện ML, khối lượng công việc fp16/bf16, và 80 GB HBM2e mỗi card), RTX 5090 (1× / 2×, kiến trúc Blackwell mới hơn, phù hợp cho inference và rendering), và RTX 4090 (1× / 2× / 4×, tiết kiệm chi phí cho Stable Diffusion, inference LLM, và dựng hình 3D).

GPU là dedicated hay shared?

Dedicated. Mỗi gói là passthrough toàn bộ GPU vật lý - không phải slice, không phải vGPU, không phải MIG. CUDA core, VRAM, băng thông PCIe đều hoàn toàn của bạn. Các gói đa GPU sử dụng NVLink khi phần cứng vật lý hỗ trợ (các gói đa GPU A100).

CUDA có được cài sẵn không?

Có. Mỗi VPS GPU đều được cài sẵn CUDA toolkit stable mới nhất, cuDNN, và driver Nvidia trong image Ubuntu. PyTorch, TensorFlow, JAX, và stack Hugging Face dùng được ngay không cần cấu hình thêm. Bạn có thể cài lại image Ubuntu sạch không có CUDA nếu muốn tự cài phiên bản cụ thể.

Tôi có bao nhiêu VRAM?

Mỗi GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Các gói đa GPU cộng dồn lại - gói 4× A100 có tổng cộng 320 GB VRAM. Danh sách gói phía trên hiển thị RAM hệ thống riêng.

Tôi có thể chạy Stable Diffusion / Llama / Whisper trên VPS GPU không?

Có. Gói 1× RTX 4090 là điểm khởi đầu phù hợp: đủ VRAM cho SDXL inference, Llama 3 70B (lượng tử hóa 4-bit), hoặc Whisper Large. Nâng lên RTX 5090 hoặc A100 nếu bạn cần chạy mô hình 70B chưa lượng tử hóa hoặc huấn luyện LoRA.

Giá so với AWS / Google Cloud / Lambda Labs như thế nào?

Thông thường rẻ hơn cho các workload chạy liên tục. Chúng tôi không phân biệt giá giữa 'on-demand' và 'spot', và không tính phí egress. Chúng tôi không công bố số liệu của đối thủ vì giá thay đổi hàng tháng. Chính sách hoàn tiền 14 ngày cho phép bạn tự so sánh với nhà cung cấp hiện tại bằng benchmark của chính mình.

Có giảm giá theo năm không?

Có, giảm 35% khi thanh toán theo năm cho mọi gói GPU (thấp hơn mức 50% của CPU thông thường vì phần cứng GPU có chi phí khấu hao cao hơn). Không có tự động gia hạn; bạn sẽ nhận hóa đơn trước mỗi chu kỳ năm để có thể hạ cấp, nâng cấp, hoặc hủy mà không bị tính phí bất ngờ.

Còn về mạng? Thực sự đạt 40 Gbps không?

Có. Cùng đường uplink 40 Gbps như Cloud VPS hàng đầu của chúng tôi, không tính phí egress cho lưu lượng hàng tháng trong giới hạn của gói. Rất tiện khi cần truyền tập dữ liệu lớn vào hoặc ra khỏi node GPU. Tải mô hình Hugging Face 100 GB chỉ mất khoảng 30 giây ở tốc độ tối đa.

Tôi có thể chạy huấn luyện đa node (nhiều VPS GPU cùng lúc) không?

Có, trong cùng một khu vực. Các VPS trong cùng datacenter dùng chung mạng nội bộ với độ trễ dưới mili giây. Hiện chúng tôi chưa hỗ trợ kết nối InfiniBand. Huấn luyện đa node qua Ethernet tiêu chuẩn phù hợp cho fine-tuning và các tác vụ phân tán quy mô nhỏ, nhưng không thể cạnh tranh với HPC bare-metal cho pre-training quy mô lớn.

Gói GPU có bảo đảm hoàn tiền không?

14 ngày, không cần giải thích. Hoàn tiền trong một chu kỳ thanh toán. Đủ thời gian để benchmark CUDA throughput, chạy thử bước huấn luyện thực tế, và quyết định xem Cloudzy có phù hợp với workload của bạn không.

Ngừng trả giá hyperscaler.
Huấn luyện trên GPU chuyên dụng.

Chọn card, chọn khu vực, nhấn triển khai. CUDA đã được cài sẵn.

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào