การอนุมาน LLM
ให้บริการ Llama 3, Mistral, DeepSeek หรือ Qwen ด้วย vLLM หรือการอนุมานการสร้างข้อความ RTX 4090 จัดการ 70B ที่ 4 บิต, RTX 5090 จัดการ 70B ที่ 8 บิต, A100 จัดการแบบไม่เชิงปริมาณ
เลือกประเทศเพื่อดู Cloudzy ในภาษาของคุณ
โฮสติ้ง GPU VPS
ส่งผ่าน GPU แบบเต็ม RTX 6000 Pro, A100, RTX 5090, RTX 4090. CUDA, cuDNN, PyTorch ที่ติดตั้งไว้ล่วงหน้าพร้อมแล้ว
NVMe + 40 Gbps networking. Independent cloud since 2008.
เริ่มต้นที่ $506.35/mo · ลด 35% ต่อปี · ไม่ต้องใช้บัตรเครดิต
สรุป GPU VPS
Cloudzy ขายแผน GPU VPS แบบเฉพาะ RTX 6000 โปร, NVIDIA A100, RTX 5090, และ RTX4090 การ์ดเข้า 1× ถึง 4× การกำหนดค่าเริ่มต้นที่ $506.35 per month. แต่ละแผนจะจัดส่งมาพร้อมกับเวอร์ชันล่าสุดที่ติดตั้งไว้ล่วงหน้า CUDA, cuDNN, และไดรเวอร์ Nvidia ทำงานบน AMD EPYC + DDR5 ด้วย NVMe เท่านั้น storage และ 40 Gbps อัปลิงค์และข้อกำหนดใน 60 วินาที. GPU เป็นการส่งผ่านเฉพาะ ไม่ใช่ vGPU ไม่ใช่ MIG ไม่แชร์ Cloudzy ได้ดำเนินการอย่างเป็นอิสระตั้งแต่นั้นเป็นต้นมา 2008 และได้คะแนน 4.6 / 5 by 713+ reviewers บน Trustpilot
เหตุใดทีม ML จึงเลือก Cloudzy
เหตุผลสี่ประการที่ทีมย้ายไปยัง Cloudzy จาก AWS / GCP / Hyperscaler GPU
การ์ดจริงแบบเต็มเป็นของคุณ ไม่มีการแบ่งส่วน vGPU ไม่มีพาร์ติชัน MIG ไม่มีการโต้แย้งกับผู้เช่ารายอื่น แกน CUDA, VRAM, เลน PCIe ทั้งหมดทุ่มเท
ไดรเวอร์ Nvidia ล่าสุด, ชุดเครื่องมือ CUDA และ cuDNN ที่อบไว้ล่วงหน้าในอิมเมจ Ubuntu PyTorch, TensorFlow, JAX, Hugging Face, pip install และคุณกำลังฝึกฝน
พื้นที่จัดเก็บข้อมูล Pure NVMe ดังนั้นการโหลดชุดข้อมูลจึงไม่ใช่ปัญหาคอขวด ระบบเครือข่าย 40 Gbps หมายถึงการดึงโมเดล Hugging Face ขนาด 100 GB เสร็จสิ้นภายในไม่กี่วินาที ไม่ใช่ไม่กี่นาที
วิศวกรตัวจริงในการแชท เราได้ช่วยทีมมามากพอแล้วในการตั้งค่าการฝึกอบรมแบบ multi-GPU, ดีบัก CUDA OOM และปรับแต่งการอนุมานของ Llama เพื่อให้คำตอบกลับมาอย่างรวดเร็ว
กลุ่มผลิตภัณฑ์ GPU
RTX 6000 Pro สำหรับการอนุมานและการเรนเดอร์ระดับมืออาชีพด้วย ECC VRAM ขนาด 48 GB A100 สำหรับการฝึกอบรมและเวิร์กโหลด VRAM ขนาดใหญ่ RTX 5090 สำหรับการอนุมานใหม่ล่าสุด RTX 4090 สำหรับการอนุมานที่คุ้มค่าสูงสุด 70B (4 บิต) มีแผน Multi-GPU ให้เลือก เลือกงบประมาณ VRAM ที่คุณต้องการ
กรณีการใช้งาน
ให้บริการ Llama 3, Mistral, DeepSeek หรือ Qwen ด้วย vLLM หรือการอนุมานการสร้างข้อความ RTX 4090 จัดการ 70B ที่ 4 บิต, RTX 5090 จัดการ 70B ที่ 8 บิต, A100 จัดการแบบไม่เชิงปริมาณ
เรียกใช้ SDXL, Flux หรือจุดตรวจสอบ Stable Diffusion ที่ปรับแต่งอย่างละเอียดด้วย ComfyUI หรือ Automatic1111 RTX 4090 เข้าชม 30+ ภาพ/นาที บน SDXL มาตรฐาน 1024×1024
LoRA, QLoRA, การปรับแต่งแบบเต็ม A100 เป็นจุดที่น่าสนใจสำหรับการปรับแต่งแบบละเอียดแบบไม่มีปริมาณของ 7B-13B; 4× A100 รองรับได้ถึง 70B พร้อมการแบ่งส่วนที่เหมาะสม (FSDP / DeepSpeed)
Cycles + OptiX บนการ์ด RTX เป็นเส้นทางที่เร็วที่สุดสำหรับสตูดิโอแอนิเมชัน VRAM ขนาด 24 GB บน RTX 4090 ครอบคลุมฉากการผลิตเฟรมเดียวส่วนใหญ่
กระซิบขนาดใหญ่, เร็วกว่า - กระซิบ, YOLO, แบ่งส่วนอะไรก็ได้ แม้แต่แผน RTX 4090 ก็ยังเรียกใช้การอนุมานแบบเรียลไทม์ในรุ่นเหล่านี้โดยมีพื้นที่ว่างด้านบนที่สะดวกสบาย
การสร้างการฝัง ไปป์ไลน์การดึงข้อมูล การประมวลผลชุดข้อมูลล่วงหน้า จ่ายรายชั่วโมง รันงาน สแนปเอาท์ ทำลายกล่อง ราคาถูกกว่าเช่า AWS/GCP สำหรับเวิร์กโหลดเท่าเดิม
ราคา
ขณะนี้มีการเรียกเก็บเงินรายปี ลด 35% ในทุกแผน GPU
คำถามที่พบบ่อย GPU VPS
เลือกการ์ด เลือกภูมิภาค คลิก CUDA ได้รับการติดตั้งแล้ว
ไม่ต้องใช้บัตรเครดิต · คืนเงินภายใน 14 วัน · ยกเลิกได้ทุกเมื่อ