suy luận LLM
Phục vụ Llama 3, Mistral, DeepSeek hoặc Qwen với vLLM hoặc Suy luận tạo văn bản. RTX 4090 xử lý 70B ở 4 bit, RTX 5090 xử lý 70B ở 8 bit, A100 xử lý không lượng tử hóa.
Chọn quốc gia để xem Cloudzy bằng ngôn ngữ của bạn.
Lưu trữ VPS GPU
Thông qua GPU đầy đủ. RTX 6000 Pro, A100, RTX 5090, RTX 4090. Đã cài đặt sẵn CUDA, cuDNN, PyTorch.
Mạng NVMe + 40 Gbps. Đám mây độc lập từ năm 2008.
Khởi điểm từ $506.35/mo · Giảm 35% hàng năm · Không cần thẻ tín dụng
Sơ lược về GPU VPS
Cloudzy bán các gói GPU VPS chuyên dụng RTX 6000 Pro, Nvidia A100, RTX 5090, Và RTX 4090 thẻ trong 1× đến 4× cấu hình, bắt đầu từ $506.35 per month. Mỗi gói đều được cài đặt sẵn phiên bản mới nhất CUDA, cuDNN, và trình điều khiển Nvidia, chạy trên AMD EPYC + DDR5 với Chỉ dành cho NVMe lưu trữ và 40 Gbps đường lên và các quy định trong 60 giây. GPU là chuyển tiếp chuyên dụng, không phải vGPU, không MIG, không chia sẻ. Cloudzy đã hoạt động độc lập kể từ 2008 và được đánh giá 4.6 / 5 by 713+ reviewers trên Trustpilot.
Tại sao các đội ML chọn Cloudzy
Bốn lý do khiến các nhóm chuyển sang Cloudzy từ GPU AWS / GCP / hyperscaler.
Card vật lý đầy đủ là của bạn, không cắt vGPU, không phân vùng MIG, không tranh chấp với người thuê khác. Các lõi CUDA, VRAM, làn PCIe, tất cả đều chuyên dụng.
Trình điều khiển Nvidia mới nhất, bộ công cụ CUDA và cuDNN được cài sẵn vào hình ảnh Ubuntu. PyTorch, TensorFlow, JAX, Hugging Face, cài đặt pip và bạn đang đào tạo.
Bộ lưu trữ NVMe thuần túy nên việc tải tập dữ liệu không phải là trở ngại. Kết nối mạng 40 Gbps có nghĩa là mô hình Ôm Mặt 100 GB sẽ kết thúc sau vài giây chứ không phải vài phút.
Kỹ sư thực sự trên trò chuyện. Chúng tôi đã giúp đủ nhóm thiết lập chương trình đào tạo đa GPU, gỡ lỗi CUDA OOM và điều chỉnh suy luận Llama để có câu trả lời nhanh chóng.
Dòng GPU
RTX 6000 Pro để suy luận và hiển thị cấp độ chuyên nghiệp với 48 GB ECC VRAM. A100 dành cho đào tạo và khối lượng công việc VRAM lớn. RTX 5090 để có suy luận mới nhất. RTX 4090 để suy luận hiệu quả về mặt chi phí lên tới 70B (4-bit). Có sẵn các gói Multi-GPU, hãy chọn ngân sách VRAM của bạn cần bao nhiêu.
Trường hợp sử dụng
Phục vụ Llama 3, Mistral, DeepSeek hoặc Qwen với vLLM hoặc Suy luận tạo văn bản. RTX 4090 xử lý 70B ở 4 bit, RTX 5090 xử lý 70B ở 8 bit, A100 xử lý không lượng tử hóa.
Chạy các điểm kiểm tra Khuếch tán ổn định SDXL, Flux hoặc được tinh chỉnh với ComfyUI hoặc Automation1111. RTX 4090 đạt hơn 30 hình ảnh/phút trên 1024×1024 SDXL tiêu chuẩn.
LoRA, QLoRA, tinh chỉnh đầy đủ. A100 là điểm phù hợp cho việc tinh chỉnh không lượng tử hóa 7B-13B; 4× A100 xử lý lên tới 70B với khả năng phân chia thích hợp (FSDP / DeepSpeed).
Cycles + OptiX trên thẻ RTX là con đường nhanh nhất cho các xưởng phim hoạt hình. VRAM 24 GB trên RTX 4090 đáp ứng phần lớn các cảnh sản xuất khung hình đơn.
Thì thầm lớn, thì thầm nhanh hơn, YOLO, phân đoạn bất cứ điều gì. Ngay cả gói RTX 4090 cũng chạy suy luận theo thời gian thực trên những mẫu máy này với khoảng không gian thoải mái.
Nhúng thế hệ, đường dẫn truy xuất, tiền xử lý dữ liệu. Trả lương theo giờ, chạy công việc, chụp nhanh đầu ra, hủy hộp, rẻ hơn so với thuê AWS/GCP cho cùng một khối lượng công việc.
Định giá
Thanh toán hàng năm hiện tại là giảm giá 35% trên mọi gói GPU.
Câu hỏi thường gặp. VPS GPU
Chọn một thẻ, chọn một khu vực, nhấp chuột. CUDA đã được cài đặt.
Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào