خصم 50% جميع الخطط، لفترة محدودة. تبدأ من $2.48/mo

استضافة AI VPS

أعباء عمل الذكاء الاصطناعي،
اختر الشكل الخاص بك.

ذاكرة وصول عشوائي عالية CPU للاستدلال / RAG، أو GPU من فئة NVIDIA للتدريب، نفس لوحة VPS.
سحابة مستقلة منذ 2008. من 2.48 $/شهر · root SSH خلال 60 ثانية.

4.6 · 706 reviews on Trustpilot

CPU من $2.48/mo · خطط GPU قيد التشغيل التسعير · استرداد الأموال خلال 14 يومًا

~ سش root@ai-nyc-001 متصل
root@ai-nyc-001:~# حليقة -fsSL https://ollama.com/install.sh | ش
تثبيت وقت تشغيل Olma... تم
root@ai-nyc-001:~# قم بتشغيل llama3.1:8b-instruct-q4
سحب البيان · تنزيل 4.7 جيجابايت إلى NVMe
نموذج جاهز · بداية CPU الاستدلال
root@ai-nyc-001:~# تجعيد المضيف المحلي:11434/api/إنشاء -d '...'
{"response":"مرحبًا! كيف يمكنني مساعدتك اليوم؟"}
root@ai-nyc-001:~# _

AI VPS في لمحة

Cloudzy يقدم استضافة AI VPS في شكلين، ذاكرة وصول عشوائي عالية خطط CPU لاستدلال LLM الكمي، وRAG، وخطوط الأنابيب، بالإضافة إلى ذلك فئة نفيديا خطط GPU للتدريب وتقديم النماذج الكبيرة. الخطط مستمرة AMD EPYC, تخزين NVMe، و 40 Gbps روابط عبر 12 منطقة. تبدأ CPU في 2.48 $ شهريًا; يستغرق التزويد 60 ثانية; يتم إعداد صور CUDA مسبقًا على خطط GPU. تعمل Cloudzy بشكل مستقل منذ ذلك الحين 2008، يخدم أكثر من 122,000 مطور، وتقييمه 4.6 / 5 by 706+ reviewers على Trustpilot.

تبدأ CPU في
2.48 $ / شهر
أنواع GPU
آر تي إكس · برو
التزويد
60 ثانية
المناطق
12 حول العالم
اتفاقية مستوى وقت التشغيل
99.95%
استعادة الأموال
14 يوما

لماذا يختار منشئو الذكاء الاصطناعي Cloudzy؟

السحابة التي السفن منظمة العفو الدولية.

أربعة أسباب تجعل عبء عمل الذكاء الاصطناعي لديك موجودًا هنا.

AMD EPYC + NVMe

أحدث EPYC لاستدلال CPU، وNVMe للتحميل السريع للنماذج. وحدات معالجة الرسومات المخصصة عبر ممر PCI على خطط GPU.

استرداد خلال 14 يومًا

قم بإجراء اختبار زمن الوصول للاستدلال الحقيقي على Cloudzy. إذا لم يناسب SLO الخاص بك، فيمكنك استرداد المبلغ خلال 14 يومًا.

وقت تشغيل بنسبة 99.95%

تحتاج واجهات برمجة تطبيقات الذكاء الاصطناعي للإنتاج إلى مضيف لا يتم إعادة تشغيله أثناء فترة الذروة. يتم تتبع اتفاقية مستوى الخدمة لآخر 30 يومًا بشكل علني على Status.cloudzy.com.

مهندسون في الدردشة

هل أنت عالق في إصدارات CUDA، أو أخطاء NCCL، أو ضبط vLLM؟ المهندسون ذوو الخبرة في مجال الذكاء الاصطناعي، لا يستغرقون سوى دقائق وليس ساعات.

مكدس الذكاء الاصطناعي

إحضار أي إطار.
إنه يعمل.

PyTorch، وTensorFlow، وJAX، وvLLM، وTGI، وOllama، وllama.cpp، وsglang، كلها تعمل بشكل نظيف. مخبوز مسبقًا صور CUDA في خطط GPU تتخطى رقصة السائق. تتعامل خطط CPU مع الاستدلال الكمي و تضمين العمال بثمن بخس.

Docker + nvidia-container-toolkit جاهزة لخطط GPU
باي تورش
CPU وGPU
TensorFlow
CPU وGPU
vLLM
خدمة GPU LLM
أولاما
CPU + GPU LLMs
تعانق الوجه
Transformers · Diffusers
com.pgvector
متجر ناقلات RAG
قدررانت
ناقلات ديسيبل
لانجشين
إطار الوكيل

حالات الاستخدام

ما تعمل عليه فرق الذكاء الاصطناعي
كلاودزي.

واجهات برمجة التطبيقات لاستدلال LLM

قم بتقديم LLMs من فئة 7B – 70B الكمية خلف نقطة النهاية المتوافقة مع OpenAI الخاصة بك. vLLM أو TGI على GPU، وllama.cpp / Ollama على CPU الكبيرة. فاتورة عملائك عن طريق الرمز المميز.

خلفية RAG

Postgres + pgvector أو Qdrant على CPU VPS، وصندوق GPU اختياري للتضمين/الإنشاء. يعني NVMe أن عمليات البحث عن المتجهات تظل سريعة.

أوقات تشغيل الوكيل

وكلاء LangChain أو LlamaIndex ذوي التشغيل الطويل الذين يصلون إلى OpenAI/Anthropic APIs وبياناتك الخاصة. يحافظ IP الثابت على استقرار استدعاء الأدوات.

توليد الصور/الفيديو

Stable Diffusion، وSDXL، وComfyUI، ونماذج الفيديو على وحدات معالجة الرسومات من فئة RTX. يتيح لك NVMe تبديل النماذج في ثوانٍ، وليس دقائق.

الضبط والتدريب

يعمل LoRA / QLoRA على تحسين تدريب المعلمات الكاملة من فئة RTX على وحدات معالجة الرسومات من فئة مراكز البيانات. كودا المخبوزة مسبقًا، NCCL، PyTorch.

عمال التضمين

قم بتشغيل عامل محولات الجملة على CPU VPS بسعة 16-32 جيجابايت لتضمين ملايين المستندات دون دفع أسعار SaaS لكل مكالمة.

60s
التزويد
40 Gbps
الوصلة الصاعدة
NVMe فقط
تخزين
12
المناطق
99.95%
اتفاقية مستوى وقت التشغيل
14 يوما
استعادة الأموال

شبكة عالمية

12 منطقة. أربع قارات.
زمن الاستدلال، حلها.

ضع AI API الخاص بك بالقرب من عملائك. قم بإقران بوابة CPU في منطقة واحدة مع صندوق GPU في منطقة أخرى.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

خطط الذكاء الاصطناعي لCPU

LLMs الكمية · RAG · التضمينات. CPU كافية.

ترتبط العديد من أعباء عمل الذكاء الاصطناعي بCPU (CPU). الفواتير بالساعة · خصم 50% على جميع الخطط · خطط GPU مدرجة بشكل منفصل في /التسعير.

12 GB DDR5

RAG الخلفية · ناقل DB · التضمين

$34.98 /شهر
$69.95/mo −50%
انشر الآن
استرداد خلال 14 يومًا
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • أولاما / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

متوسط ​​الحجم استنتاج CPU · بوابة API

$49.98 /شهر
$99.95/mo −50%
انشر الآن
استرداد خلال 14 يومًا
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • أولاما / vLLM CPU
  • Root SSH · KVM

التعليمات. AI VPS

أسئلة شائعة، إجابات مباشرة.

ما هو AI VPS؟

AI VPS هو خادم سحابي بحجم Linux تم تهيئته لأحمال عمل الذكاء الاصطناعي وRAM العالية وأنوية EPYC لاستدلال CPU وRAG، أو GPU من فئة NVIDIA للتدريب وتقديم النماذج الكبيرة. يمكنك إدخال SSH وتثبيت مكدسك وتشغيله. نفس VPS، وأشكال مختلفة لوظائف مختلفة.

هل أحتاج إلى GPU أم أن CPU ستعمل؟

يعتمد على النموذج. تعمل LLMs من فئة 7B الكمية (int4 / int8 عبر llama.cpp أو Ollama) بشكل مفيد على خطة CPU بسعة 16-32 جيجابايت. نماذج التضمين، وقواعد بيانات المتجهات (Qdrant، وWeaviate، وpgvector)، وخطوط أنابيب RAG تكون في الغالب مرتبطة بCPU (CPU). للتدريب، أو تقديم نماذج أكبر، أو أي شيء يتطلب إنتاجية ثقيلة، فأنت تريد خطة GPU.

هل يمكنني تشغيل واجهة برمجة تطبيقات الاستدلال خلف موازن التحميل؟

نعم. قم بتشغيل vLLM أو TGI أو خدمة FastAPI الخاصة بك على صندوق GPU، ضع CPU VPS الصغيرة في المقدمة كبوابة API ومحدد المعدل. كلاهما يشتركان في شبكة خاصة في نفس المنطقة. 40 جيجابت في الثانية تعني أن البوابة لن تكون عنق الزجاجة أبدًا.

هل يمكنني استضافة واجهة RAG الخلفية؟

نعم، وهو من أكثر الأشكال شيوعاً. يعمل CPU VPS سعة 16–32 جيجابايت على تشغيل Postgres + pgvector أو Qdrant بسعر رخيص، ويمكنك الاتصال بـ GPU VPS أو LLM مستضاف للإنشاء. يجعل NVMe استعلامات المتجهات سريعة، ويعالج EPYC حساب التضمين عند الدفع.

ما هي أطر عمل الذكاء الاصطناعي المدعومة؟

كل منهم. PyTorch، TensorFlow، JAX، ONNX، llama.cpp، Ollama، vLLM، TGI، sglang، MLX (على الأجهزة المناسبة)، Hugging Face Transformers، التثبيت عبر conda، pip، أو Docker. صور CUDA المخبوزة مسبقًا على خطط GPU، الجذر الكامل لكل خطة.

هل وحدات معالجة الرسومات مشتركة؟

لا، تستخدم خطط GPU ممر PCI، وGPU الذي تحجزه مخصص لجهازك الافتراضي والذاكرة الكاملة والساعات الكاملة. تعمل كل من CUDA وNVENC وNCCL بنفس الطريقة التي تعمل بها الصناديق المعدنية. فئة RTX للاستدلال الفعال من حيث التكلفة، وفئة مراكز البيانات للتدريب المتطور.

ما مقدار VRAM الذي أحتاجه؟

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

هل هناك ضمان استرداد؟

نعم، 14 يومًا من الشراء، استرداد كامل المبلغ، دون طرح أي أسئلة. قم بإجراء اختبار زمن الوصول للاستدلال الحقيقي، ومعيار RAG الحقيقي الخاص بك، وقرر ما إذا كان Cloudzy مناسبًا قبل الالتزام بعام.

ما مدى سرعة التجهيز؟

بمجرد تأكيد الدفع، سيتم تفعيل AI VPS الخاص بك خلال 60 ثانية. CPU أو GPU. صور CUDA المخبوزة مسبقًا على خطط GPU تعني إرجاع nvidia-smi خلال ثوانٍ. يتم شحن خطط CPU مع Ubuntu LTS أو Debian، قم بتثبيت مكدس الذكاء الاصطناعي الخاص بك عبر conda أو pip في بضع دقائق.

هل يمكنني استخدام هذا في الإنتاج؟

نعم. اتفاقية مستوى الخدمة (SLA) لوقت تشغيل بنسبة 99.95%، والفوترة بالساعة، وعدم وجود التزامات، وعناوين IP مخصصة، وخيار التوسع المباشر في RAM/CPU الافتراضية/وحدة التخزين دون إعادة البناء. يقوم العديد من عملائنا بتشغيل استدلال الذكاء الاصطناعي وواجهات برمجة تطبيقات RAG في الإنتاج من Cloudzy.

جاهزون متى أردت.
AI VPS في 60 ثانية.

اختر الشكل الذي يحتاجه عبء العمل الخاص بك. CPU للاستدلال / RAG؛ GPU للتدريب. نفس اللوحة.

لا حاجة لبطاقة ائتمان · ضمان استرداد خلال 14 يومًا · إلغاء في أي وقت