What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Ollama VPS Hosting-Dienst

Open-Source betreiben
LLMs auf deinem VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

Ollama-fähiger VPS auf aktueller AMD EPYC und reiner NVMe.
Unabhängig seit 2008. Lama, Mistral, Qwen, DeepSeek, Gemma, alles unter Ihrer eigenen IP.

4.6· 735 reviews on Trustpilot

Deploy eines Ollama VPS Pläne vergleichen

Ab $2.48/mo · 50% Rabatt · Keine Kreditkarte erforderlich

~ ssh root@ollama-lon-001verbunden

root@ollama-lon-001:~# ollama pull llama3
Manifest wird abgerufen... Modell wird abgerufen 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "Was ist ein VPS?"
Ein VPS, oder Virtual Private Server, ist eine virtualisierte
Rechenumgebung mit eigenem Betriebssystem und dedizierten
Ressourcen, gehostet in der Cloud...
root@ollama-lon-001:~# _

Ollama VPS auf einen Blick

Cloudzy Hosts Ollama-fähige VPSs ab 12 Regionen in Nordamerika, Europa, dem Nahen Osten und Asien, ab $2.48 per month. Die Pläne reichen von 512 MB to 64 GB DDR5, alle auf NVMe Speicher mit 40 Gbps Uplinks. Ollama wird per Klick installiert; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma und serve sie hinter einem OpenAI-kompatiblen APIServer-Bereitstellung in 60 Sekunden. Cloudzy ist seit 2008 unabhängig und wird bewertet mit 4.6 / 5 by 735+ reviewers auf Trustpilot.

Einstiegspreis: $2.48 / month
Bereitstellung: 60 Sekunden
Regionen: 12 weltweit
Betriebszeit-SLA: 99.95%
Geld-zurück: 14 Tage
Gegründet: 2008

Warum Entwickler Cloudzy wählen

Ein LLM-Host technikaffinen Entwicklern.

Die vier Kriterien, nach denen Kunden uns vergleichen - und bei denen wir überzeugen.

Optimiert für Inferenz

AMD EPYC, NVMe-only-Speicher, DDR5-Arbeitsspeicher, 40 Gbps Uplinks. Modellgewichte laden in Sekunden von NVMe – kein langsamer Datenträger, der die erste Antwort ausbremst.

Risikofreie Testphase

14-tägige Geld-zurück-Garantie auf jeden Plan. Keine Fragen, keine Einrichtungsgebühren. Jederzeit über das Dashboard kündigen.

99,95% Uptime SLA

Automatisiertes Monitoring in 12 Regionen. Die SLA der letzten 30 Tage wird öffentlich auf status.cloudzy.com erfasst, ohne PR-Filter.

24/7 Support durch echte Mitarbeiter

Live-Chat und Ticket-Antworten in der Regel unter 5 Minuten. Engineers, keine Skript-Vorleser. Mediane Lösungszeit unter 1 Stunde.

Modell auswählen

Open-Weight-Modelle.
Ein Pull entfernt.

Llama 3 für den sicheren Einstieg, Mistral für allgemeinen Chat, Qwen für mehrsprachige Aufgaben, DeepSeek für Code, Gemma für kleine CPU-Workloads. Kombiniere sie nach Bedarf, alle auf demselben NVMe.

Benutzerdefinierter GGUF-Upload in jedem Plan enthalten

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Kleine Microsoft-Modelle

Anwendungsfälle

Warum Entwickler sich für
Cloudzy's Ollama VPS.

Privater API für deine App

Ein OpenAI-kompatibler Endpoint auf deiner dedizierten IP, direkt einsatzbereit. Baue Chat-Funktionen, Summarizer oder Agents, ohne Nutzeranfragen an einen Drittanbieter zu schicken.

Hintergrund-Agenten

Lang laufende Agents, die E-Mails stapelweise verarbeiten, Seiten crawlen oder Tickets automatisch taggen, passen nicht zu nutzungsbasiert abgerechneten APIs. Ein VPS mit Pauschalpreis schon. Cron-Job einrichten, Ollama aufrufen, warten, wiederholen.

Code-Assistenten

Führe DeepSeek-Coder oder Qwen-Coder hinter dem Continue / Tabby Plugin deines Editors aus. Schnelle Autovervollständigung, keine Kosten pro Vorschlag, kein Code geht an Drittanbieter.

Hobby-Chat & RAG-Demos

Lade ein Modell herunter, verbinde Open WebUI oder LibreChat, teile einen Link mit Freunden. Der komplette Stack auf einer VPS für ein paar Euro im Monat.

LLMs für Compliance-Anforderungen

Sensible Daten (Recht, Gesundheitswesen, interne Dokumente) bleiben auf deiner VPS. Auditiere Zugriffe mit iptables und journald - dein Modell, dein Perimeter.

Eigene Fine-Tunes erstellen

Lade Basisgewichte herunter, führe das Fine-Tuning auf einer GPU-Instanz durch, und deploy das GGUF zurück auf eine CPU Ollama VPS für Inferenz. Günstiger Betrieb unter der Woche, Mehrausgaben nur beim Training.

60s

Bereitstellung

40 Gbps

Aufwärtsverbindung

Nur NVMe

Speicher

Regionen

99.95%

Betriebszeit-SLA

14 Tage

Geld-zurück

Globales Netzwerk

12 Regionen. Vier Kontinente.
Wähle deine Instanz und lade ein Modell.

Platziere deinen Inferenz-Host in der Nähe deiner Nutzer. Median-P50-Latenz unter 10 ms in Nordamerika und Europa.

Alle 12 Regionen ansehen

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Preise

Zahle nur, was du nutzt. Das war's.

Stündlich, monatlich oder jährlich. Keine Egress-Gebühren. Keine Vertragsbindung. Aktuell 50 % Rabatt alle Tarife.

1 GB DDR5

Kleine CPU-Modelle · 1B–3B

$3.48/Monat

$6.95/mo−50 %

Jetzt deployen

14 Tage Geld-zurück

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
Dedizierte IPv4 + IPv6
One-Click Ollama

2 GB DDR5

7B / 8B auf CPU

$7.475/Monat

$14.95/mo−50 %

Jetzt deployen

14 Tage Geld-zurück

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
Dedizierte IPv4 + IPv6
One-Click Ollama

Am beliebtesten

4 GB DDR5

Mittelgroße CPU-Inferenz

$14.47/Monat

$28.95/mo−50 %

Jetzt deployen

14 Tage Geld-zurück

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
Dedizierte IPv4 + IPv6
One-Click Ollama

Am beliebtesten

8 GB DDR5

Größerer Kontext · API-Host

$26.475/Monat

$52.95/mo−50 %

Jetzt deployen

14 Tage Geld-zurück

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
Dedizierte IPv4 + IPv6
One-Click Ollama

Mehr benötigt? Alle 10 Tarife ansehen (bis zu 64 GB)

Häufig gestellte Fragen. Ollama VPS

Häufige Fragen, klare Antworten.

Was ist eine Ollama VPS?

Eine Ollama VPS ist ein Cloudzy Cloud-Server, der für den Betrieb von Ollama konfiguriert ist - der lokalen LLM-Laufzeitumgebung. Lade Open-Source-Modelle wie Llama 3, Mistral, Qwen, DeepSeek oder Gemma herunter, stelle sie hinter deiner eigenen OpenAI-kompatiblen API bereit und entwickle Chat-Apps, Agents und Tools, ohne Traffic an externe Modellanbieter zu senden.

Ist Ollama vorinstalliert?

Ollama steht als One-Click-Installation über das Panel bereit. Wähle ein Linux-Template, das Binary landet in deinem PATH, und `ollama pull llama3` funktioniert innerhalb einer Minute. Die HTTP API lauscht standardmäßig auf Port 11434. Binde sie über einen Reverse Proxy an deine dedizierte IP.

Kann ich LLMs auf einer reinen CPU-VPS betreiben?

Ja, für kleinere Modelle. Llama 3 8B und Mistral 7B laufen auf einer 16 GB CPU-Instanz, Qwen 0.5B–3B und Gemma 2B laufen problemlos auf 4 GB. Der Durchsatz hängt von Modellgröße und Prompt ab. CPU ist langsamer als GPU, aber ausreichend für APIs mit geringem Volumen, Nebenprojekte und Entwicklungsarbeit.

Gibt es GPU-Pläne für größere Modelle?

Ja. Für Modelle der 70B-Klasse oder Hochdurchsatz-Inferenz stehen unsere GPU-Pläne zur Verfügung (RTX 4090, RTX 5090, A100). Die 4090 verarbeitet Llama 3 70B mit Quantisierung; A100 80 GB führt große Modelle in voller Präzision aus. Den Link findest du auf der Preisseite.

Wird die OpenAI-kompatible API unterstützt?

Ja. Ollama stellt einen `/v1/chat/completions`-Endpunkt bereit, der als direkter Ersatz für den OpenAI-Client funktioniert. Richte deine bestehende App auf `http://your-vps:11434/v1` und passe den Modellnamen an. Gleiches SDK, kein Umbau nötig.

Wie viel Speicherplatz benötigt ein Modell?

Das kommt darauf an. Ein 4-Bit-quantisiertes 7B-Modell belegt etwa 4 GB. Ein 8B-Modell etwa 5 GB. Ein 70B-Modell bei 4-Bit rund 40 GB. Lade so viele Modelle, wie der Speicher hergibt. Die Tarife beginnen bei 60 GB NVMe und reichen bis 1,5 TB - kombiniere beliebige Modelle auf einer einzigen Maschine.

Wie schnell ist die Bereitstellung?

Sobald die Zahlung bestätigt ist, läuft dein VPS in 60 Sekunden. Mit dem Ein-Klick-Installer von Ollama ist die Runtime in einer weiteren Minute einsatzbereit. Der erste Modell-Download dauert länger (netzwerkabhängig), danach werden Modelle auf NVMe warm gecacht.

Erhalte ich eine dedizierte IP?

Ja, jeder VPS erhält eine dedizierte statische IPv4 sowie IPv6. Erreichst du das Ollama API über die dedizierte IP, schalte einen Caddy-Reverse-Proxy davor für HTTPS auf einem echten Hostnamen - fertig. Floating IPs sind verfügbar.

Gibt es versteckte Gebühren?

Nein. Ausgehender Traffic ist im monatlichen Transfer-Kontingent enthalten. Snapshots sind kostenlos. IPv4 und IPv6 sind inklusive. Root-Zugriff ist inklusive. Die einzigen kostenpflichtigen Extras sind Floating IPs (2,50 $/Monat) und zusätzliche Snapshots über das kostenlose Kontingent hinaus.

Gibt es eine Geld-zurück-Garantie?

Ja, 14 Tage nach dem Kauf, ohne Rückfragen, vollständige Rückerstattung. Antrag über das Panel oder per E-Mail an [email protected].

Bereit, wenn du es bist.
ollama run, in 60 Sekunden.

Region wählen, klicken, Modell laden. Deine private LLM, deine dedizierte IP.

Deploy eines Ollama VPS Alle Tarife vergleichen

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar

Open-Source betreibenLLMs auf deinem VPS.

Ein LLM-Host technikaffinen Entwicklern.

Optimiert für Inferenz

Risikofreie Testphase

99,95% Uptime SLA

24/7 Support durch echte Mitarbeiter

Open-Weight-Modelle.Ein Pull entfernt.

Warum Entwickler sich fürCloudzy's Ollama VPS.

Privater API für deine App

Hintergrund-Agenten

Code-Assistenten

Hobby-Chat & RAG-Demos

LLMs für Compliance-Anforderungen

Eigene Fine-Tunes erstellen

12 Regionen. Vier Kontinente.Wähle deine Instanz und lade ein Modell.

Zahle nur, was du nutzt. Das war's.

Häufige Fragen, klare Antworten.

Was ist eine Ollama VPS?

Ist Ollama vorinstalliert?

Kann ich LLMs auf einer reinen CPU-VPS betreiben?

Gibt es GPU-Pläne für größere Modelle?

Wird die OpenAI-kompatible API unterstützt?

Wie viel Speicherplatz benötigt ein Modell?

Wie schnell ist die Bereitstellung?

Erhalte ich eine dedizierte IP?

Gibt es versteckte Gebühren?

Gibt es eine Geld-zurück-Garantie?

Bereit, wenn du es bist.ollama run, in 60 Sekunden.

Open-Source betreiben
LLMs auf deinem VPS.

Open-Weight-Modelle.
Ein Pull entfernt.

Warum Entwickler sich für
Cloudzy's Ollama VPS.

12 Regionen. Vier Kontinente.
Wähle deine Instanz und lade ein Modell.

Bereit, wenn du es bist.
ollama run, in 60 Sekunden.