Ga naar hoofdinhoud
50% korting alle plannen, beperkte tijd. Vanaf $2.48/mo

Ollama VPS-hosting

Draai open-source
LLMs op jouw VPS.

Ollama-klare VPS op de nieuwste AMD EPYC en pure NVMe.
Onafhankelijk sinds 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, allemaal onder jouw IP.

4.7 · 755 reviews on Trustpilot

Vanaf $2.48/mo · 50% korting · Geen creditcard nodig

~ ssh root@ollama-lon-001 verbonden
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS in het kort

Cloudzy host Ollama-ready VPSes vanaf 13 regio's in Noord-Amerika, Europa, het Midden-Oosten en Azië, vanaf $2.48 per month. Plannen lopen van 512 MB to 64 GB DDR5, allemaal op NVMe-opslag met 40 Gbps netwerkverbindingen Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma en serveer ze achter een OpenAI-compatibele APIServers inrichten in 60 seconden. Cloudzy has operated independently since 2008 en wordt beoordeeld met 4.7 / 5 by 755+ reviewers op Trustpilot.

Vanafprijs
$2.48 / month
Inrichting
60 seconden
Regio's
13 wereldwijd
Uptime-SLA
99.95%
Geld terug
14 dagen
Opgericht
2008

Waarom ontwikkelaars Cloudzy kiezen

Een LLM-host favoriete

De vier dingen waar kopers ons echt op vergelijken, goed gedaan.

Geoptimaliseerd voor inferentie

AMD EPYC, NVMe-only opslag, DDR5 geheugen, 40 Gbps uplinks. Modelgewichten laden vanuit NVMe in seconden; geen trage schijf die je eerste respons vertraagt.

Risicovrij proberen

14 dagen geld-terug-garantie op elk plan. Geen vragen. Geen setup-kosten. Annuleer op elk moment vanuit het dashboard.

99,95% uptime-SLA

Geautomatiseerde monitoring in 13 regio's. SLA van de laatste 30 dagen is publiek zichtbaar op status.cloudzy.com, geen PR-spelletjes.

24/7 menselijke support

Reacties op livechat en tickets meestal binnen 5 minuten. Engineers, geen scriptlezers. Mediane oplostijd onder 1 uur.

Kies je model

Open-weight modellen.
Één pull verwijderd.

Llama 3 voor de veilige keuze, Mistral voor algemene chat, Qwen voor meertalig gebruik, DeepSeek voor code, Gemma voor licht CPU werk. Combineer naar wens, allemaal op dezelfde NVMe.

Uploaden van aangepaste GGUF ondersteund op elk plan
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Microsoft kleine modellen

Use cases

Waarom ontwikkelaars kiezen voor
De Ollama VPS van Cloudzy.

Privé API voor je applicatie

Een drop-in OpenAI-compatibel endpoint op je dedicated IP. Bouw chatfuncties, samenvattingstools of agents zonder gebruikersprompts naar een externe provider te sturen.

Achtergrondagenten

Langlopende agents die e-mails verwerken, sites scrapen of tickets automatisch taggen, passen niet bij APIs met gebruiksgebaseerde prijzen. Een VPS met vast tarief wel. Cron een job, roep Ollama aan, wacht, herhaal.

Code-assistenten

Draai DeepSeek-Coder of Qwen-Coder achter de Continue- of Tabby-plugin van je editor. Snelle autoaanvulling, geen kosten per suggestie, geen code die naar externe partijen wordt gestuurd.

Hobby-chat & RAG-demo's

Laad een model, koppel Open WebUI of LibreChat, deel een link met vrienden. De hele stack op één VPS voor de prijs van een paar koffietjes per maand.

Compliance-vriendelijke LLMs

Gevoelige data (juridisch, medisch, interne documenten) blijft op jouw VPS. Beheer toegang met iptables en journald — jouw model, jouw omgeving.

Train je eigen fine-tunes

Laad basisgewichten, fine-tune op een GPU-machine, zet de GGUF terug op een CPU Ollama VPS voor inferentie. Goedkoop draaien door de week, budget alleen inzetten als je traint.

60s
Inrichting
40 Gbps
Opwaartse verbinding
Alleen NVMe
Opslag
13
Regio's
99.95%
Uptime-SLA
14 days
Geld terug

Wereldwijd netwerk

13 regio's. Vier continenten.
Kies jouw server en laad een model.

Zet je inferentieserver dicht bij je gebruikers. Mediane P50-latency onder de 10 ms in Noord-Amerika en Europa.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Prijzen

Betaal alleen wat je gebruikt. Dat is het.

Per uur, per maand of per jaar. Geen egresskosten. Geen verplichtingen. Nu 50% korting alle plannen.

1 GB DDR5

Kleine CPU-modellen · 1B–3B

$3.48 /mo
$6.95/mo −50%
Nu uitrollen
14 dagen niet-goed-geld-terug
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama met één klik
2 GB DDR5

7B / 8B op CPU

$7.475 /mo
$14.95/mo −50%
Nu uitrollen
14 dagen niet-goed-geld-terug
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama met één klik

Veelgestelde vragen. Ollama VPS

Veelgestelde vragen, directe antwoorden.

Wat is een Ollama VPS?

Een Ollama VPS is een Cloudzy cloudserver die is ingericht om Ollama te draaien, de lokale LLM-runtime. Laad open-source modellen zoals Llama 3, Mistral, Qwen, DeepSeek of Gemma, serveer ze achter je eigen OpenAI-compatibele API, en bouw chat-apps, agents en tools zonder verkeer naar externe modelproviders te sturen.

Is Ollama vooraf geïnstalleerd?

Ollama is beschikbaar als één-klik-installatie via het paneel. Kies een Linux-template, de binary komt op je PATH terecht, en `ollama pull llama3` werkt binnen een minuut. De HTTP API luistert standaard op poort 11434; koppel hem aan je dedicated IP achter een reverse proxy.

Kan ik LLMs draaien op een CPU-only VPS?

Ja, voor kleinere modellen. Llama 3 8B en Mistral 7B draaien op een 16 GB CPU-machine, Qwen 0.5B–3B en Gemma 2B werken prima op 4 GB. De doorvoer hangt af van de modelgrootte en de prompt. CPU is trager dan GPU, maar voldoende voor APIs met laag volume, hobbyprojecten en ontwikkelwerk.

Bieden jullie GPU-abonnementen aan voor grotere modellen?

Ja. Voor modellen van 70B-klasse of inferentie met hoge doorvoer, bekijk onze GPU-abonnementen (RTX 4090, RTX 5090, A100). De 4090 verwerkt Llama 3 70B met kwantisering; A100 80GB draait grote modellen op volledige precisie. Te vinden via de prijzenpagina.

Wordt de OpenAI-compatibele API ondersteund?

Ja. Ollama biedt een `/v1/chat/completions`-endpoint dat volledig compatibel is met de OpenAI-client. Wijs je bestaande app naar `http://your-vps:11434/v1` en verander de modelnaam. Zelfde SDK, geen herschrijving nodig.

Hoeveel schijfruimte gebruikt een model?

Dat hangt ervan af. Een 4-bit gekwantiseerd 7B-model is ongeveer 4 GB. Een 8B is ongeveer 5 GB. Een 70B op 4-bit is ~40 GB. Download zoveel modellen als je ruimte hebt. Plannen beginnen bij 60 GB NVMe en gaan tot 1,5 TB; combineer meerdere modellen op één server.

Hoe snel verloopt de provisioning?

Zodra de betaling is bevestigd, is je VPS binnen 60 seconden actief. Met Ollama's one-click installatie is de runtime binnen nog een minuut operationeel. De eerste model-download duurt langer (netwerkgebonden), maar volgende downloads worden warm gecached op NVMe.

Krijg ik een dedicated IP?

Ja, elke VPS wordt geleverd met een dedicated statisch IPv4 plus IPv6. Bereik de Ollama API via het dedicated IP, zet een Caddy reverse proxy ervoor voor HTTPS op een echte hostnaam, en je bent klaar. Floating IPs zijn beschikbaar.

Zijn er verborgen kosten?

Nee. Egress zit in je maandelijkse transferlimiet. Snapshots zijn gratis. IPv4 + IPv6 zijn inbegrepen. Roottoegang is inbegrepen. De enige betaalde extra's zijn Floating IPs ($2,50/maand) en extra snapshots boven de gratis quota.

Is er een niet-goed-geld-terug-garantie?

Ja, 14 dagen vanaf aankoop, zonder vragen, volledige terugbetaling. Vraag het aan vanuit het panel of mail [email protected].

Klaar wanneer jij het bent.
ollama run, in 60 seconden.

Kies een regio, klik, download een model. Je eigen privé LLM, je dedicated IP.

Geen creditcard nodig · 14 dagen niet-goed-geld-terug · altijd opzegbaar