50 % de réduction sur tous les plans, durée limitée. À partir de $2.48/mo

Hébergement VPS IA

Des charges de travail IA,
à votre façon.

Des CPU haute RAM pour l'inférence et le RAG, ou des GPU de classe NVIDIA pour l'entraînement, le tout depuis le même panneau VPS.
Cloud indépendant, depuis 2008. À partir de 2,48 $/mois · accès SSH root en 60 secondes.

4.6 · 728 reviews on Trustpilot

CPU à partir de $2.48/mo · Plans GPU sur tarifs · Remboursement sous 14 jours

~ ssh root@ai-nyc-001 connecté
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installation du runtime Ollama... terminé
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
récupération du manifeste · téléchargement de 4,7 Go vers NVMe
modèle prêt · démarrage de l'inférence CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Bonjour ! Comment puis-je vous aider aujourd'hui ?"}
root@ai-nyc-001:~# _

L'IA VPS en un coup d'œil

Cloudzy propose l'hébergement IA VPS sous deux formes : des offres CPU à haute RAM pour l'inférence quantifiée LLM, le RAG et les pipelines, ainsi que des NVIDIA offres GPU pour l'entraînement et le déploiement de grands modèles. Les offres tournent sur AMD EPYC, stockage NVMe, et des 40 Gbps liaisons montantes sur 12 régions. CPU démarre à $2.48 per month; le provisionnement prend 60 secondes; les images CUDA sont pré-intégrées sur les offres GPU. Cloudzy opère de façon indépendante depuis 2008, et sert 122 000+ développeurs, et est noté 4.6 / 5 by 728+ reviewers sur Trustpilot.

CPU démarre à
$2.48 / month
Types GPU
RTX · Pro
Provisionnement
60 secondes
Régions
12 dans le monde
Temps de disponibilité SLA
99.95%
Remboursement garanti
14 jours

Pourquoi les développeurs IA choisissent Cloudzy

Un cloud qui déploie l'IA.

Quatre raisons de confier vos charges de travail IA à cette infrastructure.

AMD EPYC + NVMe

Dernières EPYC pour l'inférence CPU, NVMe pour des chargements de modèles rapides. GPU dédiés via PCI passthrough sur les plans GPU.

Remboursement sous 14 jours

Testez votre latence d'inférence réelle sur Cloudzy. Si ça ne correspond pas à votre SLO, remboursement sous 14 jours.

99,95 % de disponibilité

Les API IA en production ont besoin d'un hébergeur qui ne redémarre pas en plein pic de charge. SLA des 30 derniers jours, visible publiquement sur status.cloudzy.com.

Des ingénieurs sur le chat

Bloqué sur des versions CUDA, des erreurs NCCL ou le tuning vLLM ? Des ingénieurs expérimentés sur les charges IA, disponibles en minutes.

La pile IA

Apportez votre framework.
Il tourne.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, tout fonctionne sans friction. Les images CUDA préconfigurées sur les plans GPU évitent l'installation manuelle des drivers. Les plans CPU gèrent l'inférence quantisée et les workers d'embeddings à moindre coût.

Docker + nvidia-container-toolkit prêts sur les plans GPU
PyTorch
CPU et GPU
TensorFlow
CPU et GPU
vLLM
Serving GPU LLM
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
Magasin de vecteurs RAG
Qdrant
Base de données vectorielle
LangChain
Framework d'agent

Cas d'usage

Ce sur quoi tournent les équipes AI
Cloudzy.

Inférence LLM APIs

Servez des LLMs quantifiés de 7B à 70B derrière votre propre endpoint compatible OpenAI. vLLM ou TGI sur GPU, llama.cpp / Ollama sur CPU haute capacité. Facturez vos clients au token.

Backends RAG

Postgres + pgvector ou Qdrant sur un VPS CPU, avec une machine GPU optionnelle pour l'embedding et la génération. NVMe garantit des recherches vectorielles rapides.

Runtimes d'agents

Agents LangChain ou LlamaIndex à longue durée de vie, qui appellent les APIs OpenAI/Anthropic et vos propres données. L'IP statique stabilise les appels d'outils.

Génération d'images et de vidéos

Stable Diffusion, SDXL, ComfyUI, modèles vidéo sur GPUs de classe RTX. NVMe vous permet de changer de modèle en quelques secondes.

Fine-tuning et entraînement

Fine-tuning LoRA / QLoRA sur classe RTX, entraînement complet sur GPUs de classe datacenter. CUDA, NCCL et PyTorch préconfigurés.

Workers d'embedding

Faites tourner un worker sentence-transformers sur un VPS CPU de 16 à 32 Go pour traiter des millions de documents sans payer les tarifs à l'appel SaaS.

60s
Provisionnement
40 Gbps
Liaison montante
NVMe uniquement
Stockage
12
Régions
99.95%
Temps de disponibilité SLA
14 jours
Remboursement garanti

Réseau mondial

12 régions. Quatre continents.
Latence d'inférence, résolue.

Placez votre API AI au plus près de vos utilisateurs. Associez une gateway CPU dans une région à une machine GPU dans une autre.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Plans AI CPU

LLMs quantifiés · RAG · Embeddings. CPU suffit.

De nombreuses charges de travail AI sont limitées par le CPU. Facturation à l'heure · 50 % de réduction sur tous les plans · Plans GPU listés séparément sur /pricing.

12 GB DDR5

Backend RAG · base vectorielle · embeddings

$34.98 /mois
$69.95/mo −50 %
Déployer maintenant
Remboursement sous 14 jours
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Accès SSH · KVM
16 GB DDR5

Inférence CPU mid-range · passerelle API

$49.98 /mois
$99.95/mo −50 %
Déployer maintenant
Remboursement sous 14 jours
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Accès SSH · KVM

FAQ. VPS AI

Questions fréquentes, réponses directes.

Qu'est-ce qu'un VPS AI ?

Un VPS AI est un serveur cloud Linux dimensionné et configuré pour les charges de travail IA : cœurs RAM et EPYC élevés pour l'inférence CPU et le RAG, ou GPUs de classe NVIDIA pour l'entraînement et le serving de grands modèles. Vous vous connectez, installez votre stack et démarrez. Même VPS, différentes configurations selon les besoins.

Ai-je besoin d'un GPU, ou est-ce que le CPU suffit ?

Tout dépend du modèle. Les LLMs 7B quantifiés (int4 / int8 via llama.cpp ou Ollama) tournent correctement sur un plan CPU 16–32 Go. Les modèles d'embedding, les bases de données vectorielles (Qdrant, Weaviate, pgvector) et les pipelines RAG sont majoritairement limités par le CPU. Pour l'entraînement, le serving de grands modèles ou tout ce qui est intensif en débit, optez pour un plan GPU.

Puis-je faire tourner une passerelle d'inférence API derrière un load balancer ?

Oui. Lancez vLLM, TGI ou votre propre service FastAPI sur un serveur GPU, et placez un petit VPS CPU devant comme passerelle API et limiteur de débit. Les deux partagent un réseau privé dans la même région. Avec 40 Gbps, la passerelle n'est jamais le goulot d'étranglement.

Puis-je héberger un backend RAG ?

Oui, c'est d'ailleurs l'une des configurations les plus courantes. Un VPS CPU 16–32 Go fait tourner Postgres + pgvector ou Qdrant à faible coût ; vous appelez un VPS GPU ou un LLM hébergé pour la génération. NVMe rend les requêtes vectorielles réactives, EPYC prend en charge le calcul des embeddings lors des traitements par lots.

Quels frameworks AI sont supportés ?

Tous. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (sur le matériel adapté), Hugging Face Transformers, installation via conda, pip ou Docker. Images CUDA préconfigurées sur les plans GPU, accès root complet sur tous les plans.

Les GPUs sont-ils partagés ?

Non. Les plans GPU utilisent le PCI passthrough : le GPU que vous réservez est dédié à votre VM, avec toute la mémoire et les fréquences complètes. CUDA, NVENC et NCCL se comportent exactement comme sur un serveur bare-metal. La gamme RTX pour une inférence économique, la gamme datacenter pour l'entraînement haute performance.

De combien de VRAM ai-je besoin ?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Y a-t-il une garantie de remboursement ?

Oui, 14 jours à compter de l'achat, remboursement intégral, sans questions. Testez votre latence d'inférence réelle, votre benchmark RAG réel, et décidez si Cloudzy vous convient avant de vous engager sur un an.

Combien de temps prend le déploiement ?

Une fois le paiement confirmé, votre VPS AI est opérationnel en 60 secondes. CPU ou GPU. Les images CUDA préconfigurées sur les plans GPU font que `nvidia-smi` répond en quelques secondes. Les plans CPU sont livrés avec Ubuntu LTS ou Debian ; installez votre stack AI via conda ou pip en quelques minutes.

Puis-je l'utiliser en production ?

Oui. Disponibilité garantie à 99,95 % SLA, facturation à l'heure, sans engagement, IP dédiées, et possibilité d'ajuster RAM/vCPU/stockage à chaud sans recréer le serveur. Beaucoup de nos clients font tourner des pipelines d'inférence AI et RAG API en production depuis Cloudzy.

Prêt quand vous l'êtes.
VPS AI en 60 secondes.

Choisissez la configuration adaptée à votre charge. CPU pour l'inférence / RAG ; GPU pour l'entraînement. Un seul panneau.

Sans carte bancaire · Remboursement garanti sous 14 jours · Résiliation à tout moment