واجهات برمجة التطبيقات لاستدلال LLM
قم بتقديم LLMs من فئة 7B – 70B الكمية خلف نقطة النهاية المتوافقة مع OpenAI الخاصة بك. vLLM أو TGI على GPU، وllama.cpp / Ollama على CPU الكبيرة. فاتورة عملائك عن طريق الرمز المميز.
اختر بلدًا لعرض Cloudzy بلغتك.
استضافة AI VPS
ذاكرة وصول عشوائي عالية CPU للاستدلال / RAG، أو GPU من فئة NVIDIA للتدريب، نفس لوحة VPS.
سحابة مستقلة منذ 2008. من 2.48 $/شهر · root SSH خلال 60 ثانية.
CPU من $2.48/mo · خطط GPU قيد التشغيل التسعير · استرداد الأموال خلال 14 يومًا
AI VPS في لمحة
Cloudzy يقدم استضافة AI VPS في شكلين، ذاكرة وصول عشوائي عالية خطط CPU لاستدلال LLM الكمي، وRAG، وخطوط الأنابيب، بالإضافة إلى ذلك فئة نفيديا خطط GPU للتدريب وتقديم النماذج الكبيرة. الخطط مستمرة AMD EPYC, تخزين NVMe، و 40 Gbps روابط عبر 12 منطقة. تبدأ CPU في 2.48 $ شهريًا; يستغرق التزويد 60 ثانية; يتم إعداد صور CUDA مسبقًا على خطط GPU. تعمل Cloudzy بشكل مستقل منذ ذلك الحين 2008، يخدم أكثر من 122,000 مطور، وتقييمه 4.6 / 5 by 706+ reviewers على Trustpilot.
لماذا يختار منشئو الذكاء الاصطناعي Cloudzy؟
أربعة أسباب تجعل عبء عمل الذكاء الاصطناعي لديك موجودًا هنا.
أحدث EPYC لاستدلال CPU، وNVMe للتحميل السريع للنماذج. وحدات معالجة الرسومات المخصصة عبر ممر PCI على خطط GPU.
قم بإجراء اختبار زمن الوصول للاستدلال الحقيقي على Cloudzy. إذا لم يناسب SLO الخاص بك، فيمكنك استرداد المبلغ خلال 14 يومًا.
تحتاج واجهات برمجة تطبيقات الذكاء الاصطناعي للإنتاج إلى مضيف لا يتم إعادة تشغيله أثناء فترة الذروة. يتم تتبع اتفاقية مستوى الخدمة لآخر 30 يومًا بشكل علني على Status.cloudzy.com.
هل أنت عالق في إصدارات CUDA، أو أخطاء NCCL، أو ضبط vLLM؟ المهندسون ذوو الخبرة في مجال الذكاء الاصطناعي، لا يستغرقون سوى دقائق وليس ساعات.
مكدس الذكاء الاصطناعي
PyTorch، وTensorFlow، وJAX، وvLLM، وTGI، وOllama، وllama.cpp، وsglang، كلها تعمل بشكل نظيف. مخبوز مسبقًا صور CUDA في خطط GPU تتخطى رقصة السائق. تتعامل خطط CPU مع الاستدلال الكمي و تضمين العمال بثمن بخس.
حالات الاستخدام
قم بتقديم LLMs من فئة 7B – 70B الكمية خلف نقطة النهاية المتوافقة مع OpenAI الخاصة بك. vLLM أو TGI على GPU، وllama.cpp / Ollama على CPU الكبيرة. فاتورة عملائك عن طريق الرمز المميز.
Postgres + pgvector أو Qdrant على CPU VPS، وصندوق GPU اختياري للتضمين/الإنشاء. يعني NVMe أن عمليات البحث عن المتجهات تظل سريعة.
وكلاء LangChain أو LlamaIndex ذوي التشغيل الطويل الذين يصلون إلى OpenAI/Anthropic APIs وبياناتك الخاصة. يحافظ IP الثابت على استقرار استدعاء الأدوات.
Stable Diffusion، وSDXL، وComfyUI، ونماذج الفيديو على وحدات معالجة الرسومات من فئة RTX. يتيح لك NVMe تبديل النماذج في ثوانٍ، وليس دقائق.
يعمل LoRA / QLoRA على تحسين تدريب المعلمات الكاملة من فئة RTX على وحدات معالجة الرسومات من فئة مراكز البيانات. كودا المخبوزة مسبقًا، NCCL، PyTorch.
قم بتشغيل عامل محولات الجملة على CPU VPS بسعة 16-32 جيجابايت لتضمين ملايين المستندات دون دفع أسعار SaaS لكل مكالمة.
شبكة عالمية
ضع AI API الخاص بك بالقرب من عملائك. قم بإقران بوابة CPU في منطقة واحدة مع صندوق GPU في منطقة أخرى.
خطط الذكاء الاصطناعي لCPU
ترتبط العديد من أعباء عمل الذكاء الاصطناعي بCPU (CPU). الفواتير بالساعة · خصم 50% على جميع الخطط · خطط GPU مدرجة بشكل منفصل في /التسعير.
الاستدلال الكمي 7B · CPU
RAG الخلفية · ناقل DB · التضمين
متوسط الحجم استنتاج CPU · بوابة API
CPU ذات RAM الكبيرة · الوكلاء · خطوط الأنابيب
التعليمات. AI VPS
اختر الشكل الذي يحتاجه عبء العمل الخاص بك. CPU للاستدلال / RAG؛ GPU للتدريب. نفس اللوحة.
لا حاجة لبطاقة ائتمان · ضمان استرداد خلال 14 يومًا · إلغاء في أي وقت