50% de réduction toutes les offres, durée limitée. À partir de $2.48/mo

Hébergement VPS IA

Charges de travail d'IA,
choisissez votre forme.

CPU à haute RAM pour l'inférence/RAG, ou GPU de classe NVIDIA pour la formation, même panneau VPS.
Cloud indépendant, depuis 2008. À partir de 2,48 $/mois · SSH root en 60 secondes.

4.6 · 706 reviews on Trustpilot

CPU de $2.48/mo · Le GPU prévoit prix · Remboursement sous 14 jours

~ ssh racine@ai-nyc-001 connecté
racine@ai-nyc-001 :~# curl -fsSL https://ollama.com/install.sh | merde
Installation du runtime Ollama... terminée
racine@ai-nyc-001 :~# ollama exécute lama3.1:8b-instruct-q4
extraction du manifeste · téléchargement de 4,7 Go sur NVMe
modèle prêt · Démarrage de l'inférence CPU
racine@ai-nyc-001 :~# curl localhost:11434/api/generate -d '...'
{"response": "Bonjour ! Comment puis-je vous aider aujourd'hui ?"}
racine@ai-nyc-001 :~# _

VPS IA en un coup d'œil

Cloudzy propose un hébergement VPS AI sous deux formes, à haute RAM CPU prévoit l'inférence LLM quantifiée, le RAG et les pipelines, ainsi que Classe NVIDIA Plans GPU pour la formation et le service de grands modèles. Les plans fonctionnent AMD EPYC, Stockage NVMe, et 40 Gbps liens montants à travers 12 régions. Le processeur démarre à 2,48 $ par mois; le provisionnement prend 60 secondes; Les images CUDA sont pré-préparées sur les plans GPU. Cloudzy fonctionne de manière indépendante depuis 2008, sert Plus de 122 000 développeurs, et est noté 4.6 / 5 by 706+ reviewers sur Trustpilot.

Le processeur démarre à
2,48 $ / mois
Types de GPU
RTX · Pro
Approvisionnement
60 secondes
Régions
12 dans le monde
SLA de disponibilité
99.95%
Remboursement
14 jours

Pourquoi les développeurs d'IA choisissent Cloudzy

Un nuage qui expédie l’IA.

Quatre raisons pour lesquelles votre charge de travail d'IA a sa place ici.

AMD EPYC + NVMe

Dernier EPYC pour l'inférence CPU, NVMe pour des chargements rapides de modèles. GPU dédiés via passthrough PCI sur les forfaits GPU.

Remboursement sous 14 jours

Exécutez votre véritable test de latence d'inférence sur Cloudzy. Si cela ne correspond pas à votre SLO, remboursez dans les 14 jours.

99,95 % de disponibilité

Les API d'IA de production ont besoin d'un hôte qui ne redémarre pas pendant les périodes de pointe. SLA des 30 derniers jours suivi publiquement sur status.cloudzy.com.

Des ingénieurs sur le chat

Coincé sur les versions CUDA, les erreurs NCCL ou le réglage vLLM ? Ingénieurs ayant une expérience de la charge de travail de l'IA, des minutes et non des heures.

La pile IA

Apportez n'importe quel cadre.
Ça marche.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, fonctionnent tous proprement. Précuit Les images CUDA sur les plans GPU évitent la danse des pilotes. Les plans CPU gèrent l'inférence quantifiée et intégrer les travailleurs à moindre coût.

Docker + nvidia-container-toolkit prêt sur les plans GPU
PyTorch
CPU et GPU
TensorFlow
CPU et GPU
vLLM
Service GPU LLM
Ollama
LLM CPU + GPU
Visage câlin
Transformers · Diffusers
pgvecteur
Magasin de vecteurs RAG
Qdrant
Base de données vectorielle
LangChaîne
Cadre d'agent

Cas d'usage

Sur quoi fonctionnent les équipes d'IA
Cloudzy.

API d'inférence LLM

Servez des LLM quantifiés de classe 7B à 70B derrière votre propre point de terminaison compatible OpenAI. vLLM ou TGI sur GPU, lama.cpp / Ollama sur big-CPU. Facturez vos clients par token.

Moteurs RAG

Postgres + pgvector ou Qdrant sur un VPS CPU, boîtier GPU en option pour l'intégration/génération. NVMe signifie que les recherches vectorielles restent rapides.

Durées d'exécution des agents

Agents LangChain ou LlamaIndex de longue durée qui accèdent aux API OpenAI/Anthropic et à vos propres données. L’IP statique maintient la stabilité des appels d’outils.

Génération d'images/vidéos

Stable Diffusion, SDXL, ComfyUI, modèles vidéo sur GPU de classe RTX. NVMe vous permet d'échanger des modèles en quelques secondes, et non en quelques minutes.

Mise au point et formation

Fine-tuning LoRA / QLoRA sur GPU de classe RTX, entraînement complet sur GPU de classe datacenter. CUDA, NCCL, PyTorch préconfigurés.

Intégration des travailleurs

Exécutez un outil de transformation de phrases sur un VPS CPU de 16 à 32 Go pour intégrer des millions de documents sans payer de tarifs SaaS par appel.

60s
Approvisionnement
40 Gbps
Liaison montante
NVMe uniquement
Stockage
12
Régions
99.95%
SLA de disponibilité
14 jours
Remboursement

Réseau mondial

12 régions. Quatre continents.
Latence d'inférence, résolue.

Placez votre API IA à proximité de vos clients. Associez une passerelle CPU dans une région avec un boîtier GPU dans une autre.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plans d'IA CPU

LLM quantifiés · RAG · Embeddings. Le processeur suffit.

De nombreuses charges de travail d’IA sont liées au processeur. Facturation horaire · 50 % de réduction sur tous les forfaits · Forfaits GPU répertoriés séparément sur /prix.

12 GB DDR5

Backend RAG · base de données vectorielle · intégrations

$34.98 /mois
$69.95/mo −50%
Déployer maintenant
Remboursement sous 14 jours
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama / vLLM
  • SSH root · KVM
16 GB DDR5

Inférence CPU de taille moyenne · Passerelle API

$49.98 /mois
$99.95/mo −50%
Déployer maintenant
Remboursement sous 14 jours
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama / vLLM
  • SSH root · KVM

FAQ. VPS IA

Questions fréquentes, réponses directes.

Qu'est-ce qu'un VPS IA ?

Un VPS IA est un serveur cloud Linux dimensionné et configuré pour les charges de travail d'IA, une RAM élevée et des cœurs EPYC pour l'inférence CPU et RAG, ou des GPU de classe NVIDIA pour la formation et le service de grands modèles. Vous vous connectez en SSH, installez votre pile et exécutez. Même VPS, différentes formes pour différents travaux.

Ai-je besoin d’un GPU ou le CPU fonctionnera-t-il ?

Cela dépend du modèle. Les LLM quantifiés de classe 7B (int4 / int8 via llama.cpp ou Ollama) fonctionnent utilement sur un plan CPU de 16 à 32 Go. Les modèles d'intégration, les bases de données vectorielles (Qdrant, Weaviate, pgvector) et les pipelines RAG sont pour la plupart liés au processeur. Pour la formation, la diffusion de modèles plus grands ou tout ce qui nécessite un débit important, vous avez besoin d'un plan GPU.

Puis-je exécuter une API d'inférence derrière un équilibreur de charge ?

Oui. Exécutez vLLM, TGI ou votre propre service FastAPI sur un boîtier GPU, placez un petit CPU VPS devant comme passerelle API et limiteur de débit. Tous deux partagent un réseau privé dans la même région. 40 Gbit/s signifie que la passerelle n'est jamais un goulot d'étranglement.

Puis-je héberger un backend RAG ?

Oui, et c'est l'une des formes les plus courantes. Un VPS CPU de 16 à 32 Go exécute Postgres + pgvector ou Qdrant à moindre coût, vous faites appel à un VPS GPU ou à un LLM hébergé pour la génération. NVMe rend les requêtes vectorielles rapides, EPYC gère le calcul d'intégration lorsque vous effectuez un traitement par lots.

Quels frameworks d’IA sont pris en charge ?

Tous. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (sur le matériel approprié), Hugging Face Transformers, installez via conda, pip ou Docker. Images CUDA précuites sur les forfaits GPU, racine complète sur chaque forfait.

Les GPU sont-ils partagés ?

Non. Les forfaits GPU utilisent le relais PCI, le GPU que vous réservez est dédié à votre VM, à la mémoire complète et aux horloges complètes. CUDA, NVENC, NCCL se comportent tous de la même manière que sur un boîtier nu. Classe RTX pour une inférence rentable, classe datacenter pour une formation haut de gamme.

De quelle quantité de VRAM ai-je besoin ?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Y a-t-il une garantie de remboursement ?

Oui, 14 jours après l'achat, remboursement complet, sans poser de questions. Exécutez votre véritable test de latence d'inférence, votre véritable référence RAG, et décidez si Cloudzy convient avant de vous engager sur un an.

À quelle vitesse se fait le provisionnement ?

Une fois le paiement confirmé, votre VPS AI est opérationnel dans 60 secondes. CPU ou GPU. Les images CUDA pré-préparées sur les plans GPU signifient que « nvidia-smi » revient en quelques secondes. Les plans CPU sont livrés avec Ubuntu LTS ou Debian, installez votre pile IA via conda ou pip en quelques minutes.

Puis-je l’utiliser en production ?

Oui. SLA de disponibilité de 99,95 %, facturation horaire, aucun engagement, adresses IP dédiées et possibilité de faire évoluer la RAM/le processeur virtuel/le stockage en direct sans reconstruction. Beaucoup de nos clients exécutent l'inférence IA et les API RAG en production à partir de Cloudzy.

Prêt quand vous l'êtes.
VPS IA en 60 secondes.

Choisissez la forme dont votre charge de travail a besoin. CPU for inference / RAG; GPU for training. Même panneau.

Pas de carte requise · Remboursement sous 14 jours · Résiliation à tout moment