50% de réduction toutes les offres, durée limitée. À partir de $2.48/mo

Hébergement VPS Ollama

Exécutez l'open source
LLM sur votre VPS.

VPS prêt pour Ollama sur le dernier AMD EPYC et NVMe pur.
Indépendant depuis 2008. Lama, Mistral, Qwen, DeepSeek, Gemma, le tout sous votre IP.

4.6· 708 reviews on Trustpilot

À partir de $2.48/mo · 50 % de réduction · Pas de carte requise

~ ssh root@ollama-lon-001connecté
root@ollama-lon-001 :~# ollama tire lama3
extraction du manifeste... extraction du modèle 5,0 Go ✔
root@ollama-lon-001 :~# ollama lance llama3 "Qu'est-ce qu'un VPS ?"
Un VPS, ou Virtual Private Server, est un serveur virtualisé
environnement informatique avec son propre OS et dédié
ressources, hébergées dans le cloud...
root@ollama-lon-001 :~# _

Ollama VPS en un coup d'oeil

Cloudzy hôtes Ollama-VPS prêts à partir de 12 régions en Amérique du Nord, Europe, Moyen-Orient et Asie, à partir de 2,48 $ par mois. Les offres vont de 512 MB to 64 GB DDR5, tout est allumé Stockage NVMe avec 40 Gbps liaisons montantes. Ollama s'installe en un clic ; tirer Lama 3, Mistral, Qwen, DeepSeek, Gemma et servez-les derrière un API compatible OpenAI. Mise à disposition de serveurs en 60 secondes. Cloudzy fonctionne en toute indépendance depuis 2008 et est noté 4.6 / 5 by 708+ reviewers sur Trustpilot.

Prix de départ
2,48 $ / mois
Approvisionnement
60 secondes
Régions
12 dans le monde
SLA de disponibilité
99.95%
Remboursement
14 jours
Fondé
2008

Pourquoi les développeurs choisissent Cloudzy

Un hôte LLM préféré.

Les quatre critères de comparaison qui comptent vraiment, bien gérés.

Adapté pour l'inférence

AMD EPYC, stockage NVMe uniquement, mémoire DDR5, liaisons montantes 40 Gbit/s. Le modèle pondère la charge à partir de NVMe en quelques secondes ; aucun disque lent n’étouffe votre première réponse.

Essai sans risque

Garantie de remboursement de 14 jours sur tous les plans. Sans question. Pas de frais d'installation. Annulez depuis le tableau de bord quand vous le souhaitez.

SLA de disponibilité de 99,95 %

Surveillance automatisée dans 12 régions. Le SLA des 30 derniers jours est suivi publiquement sur status.cloudzy.com, sans communication marketing pour cacher quoi que ce soit.

Support humain 24/7

Chat en direct et réponses aux tickets en moins de 5 minutes en général. Des ingénieurs, pas des lecteurs de script. Résolution médiane sous 1 heure.

Choisissez votre modèle

Modèles à poids ouvert.
Un retrait.

Llama 3 pour le choix sûr, Mistral pour le chat général, Qwen pour le multilingue, DeepSeek pour le code, Gemma pour le petit travail CPU. Mélangez et assortissez, le tout sur le même NVMe.

Téléchargement GGUF personnalisé pris en charge sur chaque forfait
Lama 3
8B/70B/405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5 milliard – 72 milliards Alibaba
Recherche profonde
Codeur / Chat / R1
Gemme
2B/7BGoogle
Phi
Petits modèles Microsoft

Cas d'usage

Pourquoi les développeurs choisissent
Le VPS Ollama de Cloudzy.

API privée pour votre application

Point de terminaison compatible OpenAI sur votre IP dédiée. Créez des fonctionnalités de chat, des résumés ou des agents sans envoyer d'invites utilisateur à un fournisseur tiers.

Agents d'arrière-plan

Les agents de longue durée qui traitent par lots les e-mails, scrapent les sites ou marquent automatiquement les tickets ne conviennent pas aux API tarifées à l'utilisation. Un VPS forfaitaire le fait. Cron un travail, frappe Ollama, dors, répète.

Assistants de codage

Exécutez DeepSeek-Coder ou Qwen-Coder derrière le plugin Continue / Tabby de votre éditeur. Saisie automatique rapide, aucun coût par suggestion, aucun code envoyé aux fournisseurs.

Chat amateur et démos RAG

Tirez un modèle, connectez Open WebUI ou LibreChat, partagez un lien avec des amis. Le tout sur un seul VPS pour le prix de quelques cafés par mois.

LLM respectueux de la conformité

Les données sensibles (juridiques, médicales, documents internes) restent sur votre VPS. Auditez les accès avec iptables et journald, votre modèle, votre périmètre.

Préparez vos propres réglages

Extrayez les poids de base, affinez un boîtier GPU, renvoyez le GGUF à un CPU Ollama VPS pour inférence. Service bon marché en semaine, faites des folies uniquement lorsque vous vous entraînez.

60s
Approvisionnement
40 Gbps
Liaison montante
NVMe uniquement
Stockage
12
Régions
99.95%
SLA de disponibilité
14 jours
Remboursement

Réseau mondial

12 régions. Quatre continents.
Choisissez le vôtre, tirez un modèle.

Déposez votre hôte d'inférence à proximité de vos utilisateurs. Latence médiane P50 inférieure à 10 ms en Amérique du Nord et en Europe.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Tarifs

Payez ce que vous utilisez. C'est tout.

À l'heure, au mois ou à l'année. Pas de frais de sortie. Sans engagement. Actuellement 50% de réduction toutes les offres.

1 GB DDR5

Petits modèles de processeurs · 1B – 3B

$3.48/mois
$6.95/mo−50%
Déployer maintenant
Remboursement sous 14 jours
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 dédiées
  • Ollama en un clic
2 GB DDR5

7B/8B sur processeur

$7.475/mois
$14.95/mo−50%
Déployer maintenant
Remboursement sous 14 jours
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 dédiées
  • Ollama en un clic

FAQ. Ollama VPS

Questions fréquentes, réponses directes.

Qu’est-ce qu’un VPS Ollama ?

Un Ollama VPS est un serveur cloud Cloudzy configuré pour exécuter Ollama, le runtime LLM local. Tirez des modèles open source comme Llama 3, Mistral, Qwen, DeepSeek ou Gemma ; servez-les derrière votre propre API compatible OpenAI ; créez des applications, des agents et des outils de chat sans envoyer de trafic à un fournisseur de modèles tiers.

Ollama est-il préinstallé ?

Ollama est disponible en installation en un clic à partir du panneau. Choisissez un modèle Linux, le binaire atterrit sur votre PATH et « ollama pull llama3 » fonctionne en une minute. L'API HTTP écoute sur le port 11434 par défaut ; liez-le à votre IP dédiée derrière un proxy inverse.

Puis-je exécuter des LLM sur un VPS utilisant uniquement le processeur ?

Oui, pour les petits modèles. Llama 3 8B et Mistral 7B fonctionnent sur un boîtier CPU de 16 Go, Qwen 0.5B–3B et Gemma 2B fonctionnent confortablement sur 4 Go. Le débit dépend de la taille du modèle et de l'invite ; CPU est plus lent que GPU mais convient parfaitement aux API à faible volume, aux projets parallèles et au travail de développement.

Proposez-vous des forfaits GPU pour les modèles plus grands ?

Oui. Pour les modèles de classe 70B ou l'inférence à haut débit, consultez nos forfaits GPU (RTX 4090, RTX 5090, A100). Le 4090 gère Llama 3 70B avec quantification ; L'A100 80 Go exécute de gros modèles de pleine précision. Lien depuis la page de tarification.

L'API compatible OpenAI est-elle prise en charge ?

Oui. Ollama expose un point de terminaison `/v1/chat/completions` qui est compatible avec le client OpenAI. Pointez votre application existante sur « http://your-vps:11434/v1 » et changez le nom du modèle. Même SDK, pas de réécriture.

Combien de disque prend un modèle ?

Ça dépend. Un modèle 7B quantifié sur 4 bits fait environ 4 Go. Un 8B fait environ 5 Go. Un 70B à 4 bits équivaut à environ 40 Go. Tirez-en autant que vous avez de la place. Les forfaits commencent à 60 Go NVMe et vont jusqu'à 1,5 To ; mélangez et assortissez les modèles sur une seule boîte.

À quelle vitesse se fait le provisionnement ?

Une fois le paiement confirmé, votre VPS est opérationnel dans 60 secondes. Avec l'installation en un clic d'Ollama, le temps d'exécution est opérationnel en une minute supplémentaire. La première extraction de modèle prend plus de temps (liée au réseau), mais les suivantes sont mises en cache à chaud sur NVMe.

Ai-je une IP dédiée ?

Oui, chaque VPS est livré avec un IPv4 statique dédié et un IPv6. Accédez à l'API Ollama via l'IP dédiée, placez un proxy inverse Caddy devant pour HTTPS sur un vrai nom d'hôte, et vous avez terminé. Des adresses IP flottantes sont disponibles.

Y a-t-il des frais cachés ?

Non. La sortie est incluse dans votre quota de transfert mensuel. Les snapshots sont gratuits. Les IPv4 + IPv6 sont incluses. L'accès root est inclus. Les seuls extras payants sont les Floating IPs (2,50 $/mois) et les snapshots supplémentaires au-delà du quota gratuit.

Y a-t-il une garantie de remboursement ?

Oui, 14 jours après l'achat, sans question, remboursement intégral. Demandez-le depuis le panel ou par email à [email protected].

Prêt quand vous l'êtes.
ollama court, dans 60 secondes.

Choisissez une région, cliquez, tirez un modèle. Votre LLM privé, votre IP dédiée.

Pas de carte requise · Remboursement sous 14 jours · Résiliation à tout moment