50% off alle abonnementen, tijdelijk aanbod. Vanaf $2.48/mo

Ollama VPS Hosting

Draai open-source
LLMs op jouw VPS.

Ollama-klare VPS op de nieuwste AMD EPYC en pure NVMe.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, allemaal onder jouw IP.

4.6· 713 reviews on Trustpilot

Starting at $2.48/mo · 50% korting · Geen creditcard vereist

~ ssh root@ollama-lon-001connected
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
Een VPS, of Virtual Private Server, is een gevirtualiseerde
computeromgeving met een eigen OS en toegewezen
resources, gehost in de cloud...
root@ollama-lon-001:~# _

Ollama VPS in het kort

Cloudzy hosts Ollama-ready VPSes vanaf 12 regions verspreid over Noord-Amerika, Europa, het Midden-Oosten en Azië, vanaf $2.48 per month. Plannen variëren van 512 MB to 64 GB DDR5, all on NVMe storage with 40 Gbps uplinks. Ollama installeert met één klik; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma en serveer ze achter een OpenAI-compatibele API. Servers provision in 60 seconds. Cloudzy opereert onafhankelijk sinds 2008 and is rated 4.6 / 5 by 713+ reviewers on Trustpilot.

Starting price
$2.48 / month
Provisioning
60 seconds
Regions
12 worldwide
Uptime SLA
99.95%
Money-back
14 days
Founded
2008

Waarom developers kiezen voor Cloudzy

An LLM host favorite.

De vier punten waarop kopers ons vergelijken, goed aangepakt.

Geoptimaliseerd voor inferentie

AMD EPYC, NVMe-only opslag, DDR5 geheugen, 40 Gbps uplinks. Modelgewichten laden vanuit NVMe in seconden; geen trage schijf die je eerste respons vertraagt.

Risicovrije proefperiode

14 dagen niet-goed-geld-terug garantie op elk plan. Geen vragen gesteld. Geen installatiekosten. Opzeggen via het dashboard wanneer je wilt.

99.95% uptime SLA

Geautomatiseerde monitoring in 12 regio's. De SLA van de afgelopen 30 dagen wordt publiek bijgehouden op status.cloudzy.com, zonder verborgen informatie.

24/7 human support

Live chat en ticketreacties doorgaans binnen 5 minuten. Technici, geen scriptlezers. Mediane oplostijd onder 1 uur.

Kies je model

Open-weight modellen.
Één pull verwijderd.

Llama 3 voor de veilige keuze, Mistral voor algemene chat, Qwen voor meertalig gebruik, DeepSeek voor code, Gemma voor licht CPU werk. Combineer naar wens, allemaal op dezelfde NVMe.

Uploaden van aangepaste GGUF ondersteund op elk plan
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Microsoft kleine modellen

Use cases

Waarom ontwikkelaars kiezen voor
De Ollama VPS van Cloudzy.

Privé API voor je applicatie

Een drop-in OpenAI-compatibel endpoint op je dedicated IP. Bouw chatfuncties, samenvattingstools of agents zonder gebruikersprompts naar een externe provider te sturen.

Background agents

Langlopende agents die e-mails verwerken, sites scrapen of tickets automatisch taggen, passen niet bij APIs met gebruiksgebaseerde prijzen. Een VPS met vast tarief wel. Cron een job, roep Ollama aan, wacht, herhaal.

Code assistants

Draai DeepSeek-Coder of Qwen-Coder achter de Continue- of Tabby-plugin van je editor. Snelle autoaanvulling, geen kosten per suggestie, geen code die naar externe partijen wordt gestuurd.

Hobby-chat & RAG-demo's

Laad een model, koppel Open WebUI of LibreChat, deel een link met vrienden. De hele stack op één VPS voor de prijs van een paar koffietjes per maand.

Compliance-vriendelijke LLMs

Gevoelige data (juridisch, medisch, interne documenten) blijft op jouw VPS. Beheer toegang met iptables en journald — jouw model, jouw omgeving.

Train je eigen fine-tunes

Laad basisgewichten, fine-tune op een GPU-machine, zet de GGUF terug op een CPU Ollama VPS voor inferentie. Goedkoop draaien door de week, budget alleen inzetten als je traint.

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12 regio's. Vier continenten.
Kies jouw server en laad een model.

Zet je inferentieserver dicht bij je gebruikers. Mediane P50-latency onder de 10 ms in Noord-Amerika en Europa.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Pricing

Betaal voor wat je gebruikt. That's it.

Per uur, maand of jaar. Geen bandbreedtekosten. Geen verplichtingen. Momenteel 50% off all plans.

1 GB DDR5

Kleine CPU-modellen · 1B–3B

$3.48/mo
$6.95/mo−50%
Deploy now
14 dagen geld-terug-garantie
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama met één klik
2 GB DDR5

7B / 8B on CPU

$7.475/mo
$14.95/mo−50%
Deploy now
14 dagen geld-terug-garantie
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama met één klik

FAQ. Ollama VPS

Common questions, straight answers.

Wat is een Ollama VPS?

Een Ollama VPS is een Cloudzy cloudserver die is ingericht om Ollama te draaien, de lokale LLM-runtime. Laad open-source modellen zoals Llama 3, Mistral, Qwen, DeepSeek of Gemma, serveer ze achter je eigen OpenAI-compatibele API, en bouw chat-apps, agents en tools zonder verkeer naar externe modelproviders te sturen.

Is Ollama vooraf geïnstalleerd?

Ollama is beschikbaar als één-klik-installatie via het paneel. Kies een Linux-template, de binary komt op je PATH terecht, en `ollama pull llama3` werkt binnen een minuut. De HTTP API luistert standaard op poort 11434; koppel hem aan je dedicated IP achter een reverse proxy.

Kan ik LLMs draaien op een CPU-only VPS?

Ja, voor kleinere modellen. Llama 3 8B en Mistral 7B draaien op een 16 GB CPU-machine, Qwen 0.5B–3B en Gemma 2B werken prima op 4 GB. De doorvoer hangt af van de modelgrootte en de prompt. CPU is trager dan GPU, maar voldoende voor APIs met laag volume, hobbyprojecten en ontwikkelwerk.

Bieden jullie GPU-abonnementen aan voor grotere modellen?

Ja. Voor modellen van 70B-klasse of inferentie met hoge doorvoer, bekijk onze GPU-abonnementen (RTX 4090, RTX 5090, A100). De 4090 verwerkt Llama 3 70B met kwantisering; A100 80GB draait grote modellen op volledige precisie. Te vinden via de prijzenpagina.

Wordt de OpenAI-compatibele API ondersteund?

Ja. Ollama biedt een `/v1/chat/completions`-endpoint dat volledig compatibel is met de OpenAI-client. Wijs je bestaande app naar `http://your-vps:11434/v1` en verander de modelnaam. Zelfde SDK, geen herschrijving nodig.

Hoeveel schijfruimte gebruikt een model?

Dat hangt ervan af. Een 4-bit gekwantiseerd 7B-model is ongeveer 4 GB. Een 8B is ongeveer 5 GB. Een 70B op 4-bit is ~40 GB. Download zoveel modellen als je ruimte hebt. Plannen beginnen bij 60 GB NVMe en gaan tot 1,5 TB; combineer meerdere modellen op één server.

Hoe snel wordt een server opgezet?

Zodra de betaling is bevestigd, is je VPS binnen 60 seconden actief. Met Ollama's one-click installatie is de runtime binnen nog een minuut operationeel. De eerste model-download duurt langer (netwerkgebonden), maar volgende downloads worden warm gecached op NVMe.

Do I get a dedicated IP?

Ja, elke VPS wordt geleverd met een dedicated statisch IPv4 plus IPv6. Bereik de Ollama API via het dedicated IP, zet een Caddy reverse proxy ervoor voor HTTPS op een echte hostnaam, en je bent klaar. Floating IPs zijn beschikbaar.

Zijn er verborgen kosten?

Nee. Uitgaand verkeer is inbegrepen in je maandelijkse datatransferquotum. Snapshots zijn gratis. IPv4 + IPv6 zijn inbegrepen. Root-toegang is inbegrepen. De enige betaalde extra's zijn Floating IP's ($2,50/maand) en extra snapshots boven het gratis quotum.

Is er een geld-teruggarantie?

Ja, 14 dagen na aankoop, zonder vragen, volledige terugbetaling. Dien je aanvraag in via het paneel of stuur een e-mail naar [email protected].

Klaar als jij het bent.
ollama run, in 60 seconden.

Kies een regio, klik, download een model. Je eigen privé LLM, je dedicated IP.

Geen creditcard vereist · 14 dagen geld-terug-garantie · Op elk moment opzegbaar