What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Hébergement VPS Ollama

Exécutez des
LLMs open source sur votre VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

VPS prêt pour Ollama, sur les derniers AMD EPYC et NVMe pur.
Indépendant depuis 2008. Lama, Mistral, Qwen, DeepSeek, Gemma, tout sous votre IP.

4.6· 735 reviews on Trustpilot

Déployez un VPS Ollama Comparer les offres

À partir de $2.48/mo · 50 % de réduction · Sans carte bancaire

~ ssh root@ollama-lon-001connecté

root@ollama-lon-001:~# ollama pull llama3
extraction du manifeste... extraction du modèle 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "Qu'est-ce qu'un VPS ?"
Un VPS, ou Virtual Private Server, est un
environnement de calcul virtualisé avec son propre OS et des
ressources dédiées, hébergé dans le cloud...
root@ollama-lon-001:~# _

Ollama VPS en un coup d'œil

Cloudzy hébergements OllamaVPS prêts à l'emploi depuis 12 régions en Amérique du Nord, en Europe, au Moyen-Orient et en Asie, à partir de $2.48 per month. Les offres vont de 512 MB to 64 GB DDR5, le tout sur stockage NVMe avec 40 Gbps uplinks. Ollama s'installe en un clic ; récupérez Llama 3, Mistral, Qwen, DeepSeek, Gemma et servez-les derrière une API compatible OpenAI. Les serveurs sont provisionnés en 60 secondes. Cloudzy opère de façon indépendante depuis 2008 et est noté 4.6 / 5 by 735+ reviewers sur Trustpilot.

Prix de départ: $2.48 / month
Provisionnement: 60 secondes
Régions: 12 dans le monde
Temps de disponibilité SLA: 99.95%
Remboursement garanti: 14 jours
Fondé: 2008

Pourquoi les développeurs choisissent Cloudzy

Un hôte LLM développeurs avertis.

Les quatre critères sur lesquels les clients nous comparent vraiment, maîtrisés.

Optimisé pour l'inférence

AMD EPYC, stockage NVMe exclusif, mémoire DDR5, liaisons montantes 40 Gbps. Les poids des modèles se chargent depuis le NVMe en quelques secondes ; aucun disque lent ne ralentit votre première réponse.

Essai sans risque

Garantie satisfait ou remboursé de 14 jours sur tous les plans. Sans conditions. Sans frais de mise en place. Annulation depuis le tableau de bord à tout moment.

99,95 % de disponibilité SLA

Surveillance automatisée sur 12 régions. Le SLA des 30 derniers jours est suivi publiquement sur status.cloudzy.com, sans communication de façade.

Support humain 24h/24, 7j/7

Chat en direct et réponses aux tickets généralement en moins de 5 minutes. Des ingénieurs, pas des lecteurs de scripts. Résolution médiane en moins d'une heure.

Choisissez votre modèle

Modèles open-weight.
À un pull près.

Llama 3 pour la valeur sûre, Mistral pour la conversation générale, Qwen pour le multilingue, DeepSeek pour le code, Gemma pour les tâches CPU légères. Combinez-les à votre guise, tous sur le même NVMe.

Upload de fichiers GGUF personnalisés disponible sur tous les plans

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Petits modèles Microsoft

Cas d'usage

Pourquoi les développeurs choisissent
Le VPS Ollama de Cloudzy.

API privé pour votre application

Endpoint compatible OpenAI sur votre IP dédiée, prêt à l'emploi. Créez des fonctionnalités de chat, des résumés automatiques ou des agents sans envoyer les données de vos utilisateurs à un prestataire tiers.

Agents en arrière-plan

Les agents qui tournent en continu pour traiter des e-mails par lots, scraper des sites ou tagger automatiquement des tickets ne cadrent pas avec les API facturés à l'usage. Un VPS à tarif fixe, si. Planifiez une tâche cron, appelez Ollama, attendez, recommencez.

Assistants de code

Faites tourner DeepSeek-Coder ou Qwen-Coder derrière le plugin Continue / Tabby de votre éditeur. Autocomplétion réactive, aucun coût par suggestion, aucun code envoyé à des tiers.

Chat perso et démos RAG

Téléchargez un modèle, connectez Open WebUI ou LibreChat, partagez un lien avec vos amis. Toute la stack sur un seul VPS pour le prix de quelques cafés par mois.

LLMs conformes aux exigences réglementaires

Les données sensibles (juridiques, médicales, documents internes) restent sur votre VPS. Contrôlez les accès avec iptables et journald : votre modèle, votre périmètre.

Entraînez vos propres fine-tunes

Récupérez les poids de base, affinez sur une machine GPU, puis déployez le GGUF sur un VPS Ollama CPU pour l'inférence. Coûts réduits en semaine, dépensez uniquement quand vous entraînez.

60s

Provisionnement

40 Gbps

Liaison montante

NVMe uniquement

Stockage

Régions

99.95%

Temps de disponibilité SLA

14 jours

Remboursement garanti

Réseau mondial

12 régions. Quatre continents.
Choisissez le vôtre et téléchargez un modèle.

Placez votre hôte d'inférence au plus près de vos utilisateurs. Latence médiane P50 inférieure à 10 ms en Amérique du Nord et en Europe.

Voir les 12 régions

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Tarifs

Payez ce que vous consommez. C'est tout.

À l'heure, au mois ou à l'année. Sans frais de sortie. Sans engagement. Actuellement 50 % de réduction tous les plans.

1 GB DDR5

Petits modèles CPU · 1B–3B

$3.48/mois

$6.95/mo−50 %

Déployer maintenant

Remboursement sous 14 jours

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
IPv4 + IPv6 dédiés
Ollama en un clic

2 GB DDR5

7B / 8B sur CPU

$7.475/mois

$14.95/mo−50 %

Déployer maintenant

Remboursement sous 14 jours

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
IPv4 + IPv6 dédiés
Ollama en un clic

Le plus populaire

4 GB DDR5

Inférence CPU taille intermédiaire

$14.47/mois

$28.95/mo−50 %

Déployer maintenant

Remboursement sous 14 jours

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
IPv4 + IPv6 dédiés
Ollama en un clic

Le plus populaire

8 GB DDR5

Contexte étendu · hôte API

$26.475/mois

$52.95/mo−50 %

Déployer maintenant

Remboursement sous 14 jours

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
IPv4 + IPv6 dédiés
Ollama en un clic

Besoin de plus ? Voir les 10 plans disponibles (jusqu'à 64 GB)

FAQ. VPS Ollama

Questions fréquentes, réponses directes.

Qu'est-ce qu'un VPS Ollama ?

Un VPS Ollama est un serveur cloud Cloudzy configuré pour exécuter Ollama, le runtime LLM local. Téléchargez des modèles open source comme Llama 3, Mistral, Qwen, DeepSeek ou Gemma ; servez-les derrière votre propre API compatible OpenAI ; construisez des applications de chat, des agents et des outils sans envoyer de trafic à un fournisseur de modèles tiers.

Ollama est-il préinstallé ?

Ollama est disponible en installation en un clic depuis le panneau. Choisissez un template Linux, le binaire est ajouté à votre PATH, et `ollama pull llama3` fonctionne en moins d'une minute. Le API HTTP écoute sur le port 11434 par défaut ; associez-le à votre IP dédiée derrière un reverse proxy.

Puis-je exécuter des LLMs sur un VPS CPU uniquement ?

Oui, pour les modèles de taille réduite. Llama 3 8B et Mistral 7B tournent sur une machine CPU avec 16 GB, Qwen 0.5B–3B et Gemma 2B fonctionnent sans problème avec 4 GB. Le débit dépend de la taille du modèle et du prompt ; le CPU est plus lent que le GPU, mais convient tout à fait aux APIs à faible volume, aux projets personnels et au développement.

Proposez-vous des plans GPU pour les modèles plus grands ?

Oui. Pour les modèles de classe 70B ou l'inférence à fort débit, consultez nos plans GPU (RTX 4090, RTX 5090, A100). La 4090 gère Llama 3 70B avec quantification ; A100 80 GB fait tourner les grands modèles en pleine précision. Disponible depuis la page des tarifs.

Le API compatible OpenAI est-il pris en charge ?

Oui. Ollama expose un endpoint `/v1/chat/completions` directement compatible avec le client OpenAI. Pointez votre application existante vers `http://your-vps:11434/v1` et changez le nom du modèle. Même SDK, aucune réécriture nécessaire.

Combien d'espace disque occupe un modèle ?

Ça dépend. Un modèle 7B quantifié en 4 bits fait environ 4 Go. Un 8B tourne autour de 5 Go. Un 70B en 4 bits représente ~40 Go. Téléchargez autant de modèles que votre espace le permet. Les offres démarrent à 60 Go NVMe et montent jusqu'à 1,5 To ; combinez plusieurs modèles sur une seule machine.

Combien de temps prend le déploiement ?

Une fois le paiement confirmé, votre VPS est actif en 60 secondes. Avec Ollama installé en un clic, le runtime est prêt en une minute de plus. Le premier téléchargement de modèle prend un peu plus de temps (limité par le réseau), mais les suivants bénéficient du cache sur NVMe.

Ai-je une IP dédiée ?

Oui, chaque VPS est livré avec une IPv4 statique dédiée ainsi qu'une IPv6. Accédez à l'API Ollama via l'IP dédiée, placez un reverse proxy Caddy devant pour HTTPS sur un vrai nom de domaine, et c'est prêt. Les IP flottantes sont disponibles.

Y a-t-il des frais cachés ?

Non. Le trafic sortant est inclus dans votre quota de transfert mensuel. Les snapshots sont gratuits. IPv4 + IPv6 sont incluses. L'accès root est inclus. Les seuls suppléments payants sont les IP flottantes (2,50 $/mois) et les snapshots supplémentaires au-delà du quota gratuit.

Y a-t-il une garantie de remboursement ?

Oui, 14 jours après l'achat, sans condition, remboursement intégral. Faites la demande depuis le panneau de gestion ou par e-mail à [email protected].

Prêt quand vous l'êtes.
ollama run, en 60 secondes.

Choisissez une région, cliquez, téléchargez un modèle. Votre LLM privé, votre IP dédiée.

Déployez un VPS Ollama Comparer toutes les offres

Sans carte bancaire · Remboursement garanti sous 14 jours · Résiliation à tout moment

Exécutez desLLMs open source sur votre VPS.

Un hôte LLM développeurs avertis.

Optimisé pour l'inférence

Essai sans risque

99,95 % de disponibilité SLA

Support humain 24h/24, 7j/7

Modèles open-weight.À un pull près.

Pourquoi les développeurs choisissentLe VPS Ollama de Cloudzy.

API privé pour votre application

Agents en arrière-plan

Assistants de code

Chat perso et démos RAG

LLMs conformes aux exigences réglementaires

Entraînez vos propres fine-tunes

12 régions. Quatre continents.Choisissez le vôtre et téléchargez un modèle.

Payez ce que vous consommez. C'est tout.

Questions fréquentes, réponses directes.

Qu'est-ce qu'un VPS Ollama ?

Ollama est-il préinstallé ?

Puis-je exécuter des LLMs sur un VPS CPU uniquement ?

Proposez-vous des plans GPU pour les modèles plus grands ?

Le API compatible OpenAI est-il pris en charge ?

Combien d'espace disque occupe un modèle ?

Combien de temps prend le déploiement ?

Ai-je une IP dédiée ?

Y a-t-il des frais cachés ?

Y a-t-il une garantie de remboursement ?

Prêt quand vous l'êtes.ollama run, en 60 secondes.

Exécutez des
LLMs open source sur votre VPS.

Modèles open-weight.
À un pull près.

Pourquoi les développeurs choisissent
Le VPS Ollama de Cloudzy.

12 régions. Quatre continents.
Choisissez le vôtre et téléchargez un modèle.

Prêt quand vous l'êtes.
ollama run, en 60 secondes.