استنتاج LLM
قدِّم Llama 3 أو Mistral أو DeepSeek أو Qwen باستخدام vLLM أو Text Generation Inference. RTX 4090 يعالج نماذج 70B بدقة 4-bit، وRTX 5090 يعالجها بدقة 8-bit، أما A100 فيعمل مع النماذج غير المضغوطة.
اختر دولة لعرض Cloudzy بلغتك.
استضافة GPU VPS
تمرير كامل لـ GPU. وصول مباشر إلى CPU، RAM، NVMe، SSD. CUDA وcuDNN وDocker مثبتة مسبقاً.
NVMe + شبكة بسرعة 40 Gbps. مزود سحابي مستقل منذ عام ٢٠٠٨.
يبدأ من $506.35/mo · خصم 35% على الاشتراك السنوي · لا حاجة لبطاقة ائتمان
GPU VPS في لمحة سريعة
Cloudzy تبيع خطط GPU VPS بموارد مخصصة RTX 6000 Pro, Nvidia A100, RTX 5090, و RTX 4090 البطاقات في من ١× إلى ٤× تكوينات، تبدأ من $506.35 per month. كل خطة تأتي مثبَّتاً عليها أحدث CUDA, cuDNN, وبرامج تشغيل Nvidia، يعمل على AMD EPYC + DDR5 مع NVMe فقط خالص و 40 Gbps الروابط الصاعدة، ويتم التوفير في ٦٠ ثانيةوحدات GPUs مخصصة بالكامل عبر تقنية Passthrough، وليست GPU افتراضية، ولا MIG، ولا مشتركة. تعمل Cloudzy باستقلالية منذ 2008 وتحمل تقييم 4.6 / 5 by 728+ reviewers على Trustpilot.
لماذا تختار فرق ML نظام Cloudzy
الأسباب الأربعة التي تدفع الفرق إلى الانتقال إلى Cloudzy من AWS / GCP / GPU الكبيرة.
البطاقة الفيزيائية الكاملة لك وحدك، دون تقسيم أو تجزئة MIG، ودون مشاركة مع مستخدمين آخرين. أنوية CUDA، وVRAM، ومسارات PCIe، كلها مخصصة لك.
أحدث إصدارات درايفرات Nvidia، وأدوات CUDA toolkit، وcuDNN مدمجة مسبقاً في صورة Ubuntu. PyTorch، TensorFlow، JAX، Hugging Face، ثم pip install وتبدأ التدريب فوراً.
تخزين NVMe بحت حتى لا يكون تحميل مجموعات البيانات عائقاً. شبكة بسرعة 40 Gbps تعني أن تنزيل نموذج Hugging Face بحجم 100 GB يكتمل في ثوانٍ، لا دقائق.
مهندسون حقيقيون على المحادثة. ساعدنا فرقاً كثيرة في إعداد بيئات التدريب متعددة GPU، وتشخيص أخطاء CUDA OOMs، وضبط استنتاج Llama، حتى باتت الإجابات تصلك سريعاً.
تشكيلة GPU
RTX 6000 Pro للاستدلال والعرض الاحترافي مع ذاكرة ECC VRAM سعتها ٤٨ GB. A100 لمهام التدريب وأحمال عمل VRAM الكبيرة. RTX 5090 لأحدث متطلبات الاستدلال. RTX 4090 للاستدلال الاقتصادي حتى ٧٠B (٤-bit). تتوفر خطط Multi-GPU، اختر ما يناسب ميزانية VRAM لديك.
حالات الاستخدام
قدِّم Llama 3 أو Mistral أو DeepSeek أو Qwen باستخدام vLLM أو Text Generation Inference. RTX 4090 يعالج نماذج 70B بدقة 4-bit، وRTX 5090 يعالجها بدقة 8-bit، أما A100 فيعمل مع النماذج غير المضغوطة.
شغِّل نقاط تفتيش SDXL أو Flux أو Stable Diffusion المُعدَّلة باستخدام ComfyUI أو Automatic1111. RTX 4090 يُنتج أكثر من 30 صورة/دقيقة بدقة 1024×1024 لـ SDXL.
LoRA وQLoRA والضبط الدقيق الكامل. A100 هو الخيار الأمثل للضبط الدقيق غير المضغوط لنماذج 7B-13B؛ و4× A100 يستوعب ما يصل إلى 70B مع التجزئة الصحيحة (FSDP / DeepSpeed).
Cycles + OptiX على بطاقات RTX هو أسرع مسار لاستوديوهات الرسوم المتحركة. ذاكرة VRAM البالغة 24 GB في RTX 4090 تغطي الغالبية العظمى من مشاهد الإنتاج أحادية الإطار.
Whisper Large وFaster-Whisper وYOLO وSegment Anything. حتى خطة RTX 4090 تُشغِّل الاستدلال الفوري على هذه النماذج مع هامش أداء مريح.
توليد التضمينات، وخطوط الاسترجاع، ومعالجة مجموعات البيانات. ادفع بالساعة، نفِّذ المهمة، احفظ نسخة من المخرجات، ثم احذف الخادم. أرخص من الاستئجار على AWS/GCP لنفس حجم العمل.
الأسعار
الفوترة السنوية متاحة حالياً خصم ٣٥٪ على جميع خطط GPU.
الأسئلة الشائعة. GPU VPS
اختر البطاقة، اختر المنطقة، اضغط. CUDA مثبت مسبقًا.
لا حاجة لبطاقة ائتمان · ضمان استرداد المبلغ خلال ١٤ يومًا · إلغاء في أي وقت