50 % Rabatt auf alle Pläne, begrenzte Zeit. Ab $2.48/mo

Ollama VPS Hosting

Open-Source betreiben
LLMs auf deinem VPS.

Ollama-fähiger VPS auf aktueller AMD EPYC und reiner NVMe.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, alles unter Ihrer eigenen IP.

4.6· 713 Bewertungen auf Trustpilot

Ab $2.48/mo · 50% Rabatt · Keine Kreditkarte erforderlich

~ ssh root@ollama-lon-001verbunden
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
Ein VPS, oder Virtual Private Server, ist eine virtualisierte
Rechenumgebung mit eigenem Betriebssystem und dedizierten
Ressourcen, gehostet in der Cloud...
root@ollama-lon-001:~# _

Ollama VPS auf einen Blick

Cloudzy Hosts Ollama-fähige VPSs ab 12 Regionen in Nordamerika, Europa, dem Nahen Osten und Asien, ab $2.48 per month. Die Pläne reichen von 512 MB to 64 GB DDR5, all on NVMe Speicher mit 40 Gbps Uplinks. Ollama wird per Klick installiert; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma und serve sie hinter einem OpenAI-kompatiblen API. Servers provision in 60 Sekunden. Cloudzy ist seit 2008 unabhängig und wird bewertet mit 4.6 / 5 by 713+ Bewertungen auf Trustpilot.

Einstiegspreis
$2.48 / month
Bereitstellung
60 Sekunden
Regionen
12 weltweit
Uptime SLA
99.95%
Geld-zurück
14 Tage
Gegründet
2008

Warum Entwickler Cloudzy wählen

An LLM host technikaffinen Entwicklern.

Die vier Kriterien, nach denen Kunden uns vergleichen - und bei denen wir überzeugen.

Optimiert für Inferenz

AMD EPYC, NVMe-only-Speicher, DDR5-Arbeitsspeicher, 40 Gbps Uplinks. Modellgewichte laden in Sekunden von NVMe – kein langsamer Datenträger, der die erste Antwort ausbremst.

Risikofreie Testphase

14-tägige Geld-zurück-Garantie auf jeden Plan. Keine Fragen, keine Einrichtungsgebühren. Jederzeit über das Dashboard kündigen.

99,95% Uptime SLA

Automatisiertes Monitoring in 12 Regionen. Die SLA der letzten 30 Tage wird öffentlich auf status.cloudzy.com erfasst, ohne PR-Filter.

24/7 Support durch echte Mitarbeiter

Live-Chat und Ticket-Antworten in der Regel unter 5 Minuten. Engineers, keine Skript-Vorleser. Mediane Lösungszeit unter 1 Stunde.

Modell auswählen

Open-Weight-Modelle.
Ein Pull entfernt.

Llama 3 für den sicheren Einstieg, Mistral für allgemeinen Chat, Qwen für mehrsprachige Aufgaben, DeepSeek für Code, Gemma für kleine CPU-Workloads. Kombiniere sie nach Bedarf, alle auf demselben NVMe.

Benutzerdefinierter GGUF-Upload in jedem Plan enthalten
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Kleine Microsoft-Modelle

Anwendungsfälle

Warum Entwickler sich für
Cloudzy's Ollama VPS.

Privater API für deine App

Ein OpenAI-kompatibler Endpoint auf deiner dedizierten IP, direkt einsatzbereit. Baue Chat-Funktionen, Summarizer oder Agents, ohne Nutzeranfragen an einen Drittanbieter zu schicken.

Background agents

Lang laufende Agents, die E-Mails stapelweise verarbeiten, Seiten crawlen oder Tickets automatisch taggen, passen nicht zu nutzungsbasiert abgerechneten APIs. Ein VPS mit Pauschalpreis schon. Cron-Job einrichten, Ollama aufrufen, warten, wiederholen.

Code assistants

Führe DeepSeek-Coder oder Qwen-Coder hinter dem Continue / Tabby Plugin deines Editors aus. Schnelle Autovervollständigung, keine Kosten pro Vorschlag, kein Code geht an Drittanbieter.

Hobby-Chat & RAG-Demos

Lade ein Modell herunter, verbinde Open WebUI oder LibreChat, teile einen Link mit Freunden. Der komplette Stack auf einer VPS für ein paar Euro im Monat.

LLMs für Compliance-Anforderungen

Sensible Daten (Recht, Gesundheitswesen, interne Dokumente) bleiben auf deiner VPS. Auditiere Zugriffe mit iptables und journald - dein Modell, dein Perimeter.

Eigene Fine-Tunes erstellen

Lade Basisgewichte herunter, führe das Fine-Tuning auf einer GPU-Instanz durch, und deploy das GGUF zurück auf eine CPU Ollama VPS für Inferenz. Günstiger Betrieb unter der Woche, Mehrausgaben nur beim Training.

60s
Bereitstellung
40 Gbps
Uplink
Nur NVMe
Speicher
12
Regionen
99.95%
Uptime SLA
14 Tage
Geld-zurück

Globales Netzwerk

12 Regionen. Vier Kontinente.
Wähle deine Instanz und lade ein Modell.

Platziere deinen Inferenz-Host in der Nähe deiner Nutzer. Median-P50-Latenz unter 10 ms in Nordamerika und Europa.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Preise

Zahle nur, was du nutzt. Das war's.

Stündlich, monatlich oder jährlich. Keine Egress-Gebühren. Keine Vertragsbindung. Aktuell 50 % Rabatt alle Tarife.

1 GB DDR5

Kleine CPU-Modelle · 1B–3B

$3.48/Monat
$6.95/mo−50%
Jetzt deployen
14 Tage Geld-zurück
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedizierte IPv4 + IPv6
  • One-Click Ollama
2 GB DDR5

7B / 8B on CPU

$7.475/Monat
$14.95/mo−50%
Jetzt deployen
14 Tage Geld-zurück
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedizierte IPv4 + IPv6
  • One-Click Ollama

FAQ. Ollama VPS

Häufige Fragen, klare Antworten.

Was ist eine Ollama VPS?

Eine Ollama VPS ist ein Cloudzy Cloud-Server, der für den Betrieb von Ollama konfiguriert ist - der lokalen LLM-Laufzeitumgebung. Lade Open-Source-Modelle wie Llama 3, Mistral, Qwen, DeepSeek oder Gemma herunter, stelle sie hinter deiner eigenen OpenAI-kompatiblen API bereit und entwickle Chat-Apps, Agents und Tools, ohne Traffic an externe Modellanbieter zu senden.

Ist Ollama vorinstalliert?

Ollama steht als One-Click-Installation über das Panel bereit. Wähle ein Linux-Template, das Binary landet in deinem PATH, und `ollama pull llama3` funktioniert innerhalb einer Minute. Die HTTP API lauscht standardmäßig auf Port 11434. Binde sie über einen Reverse Proxy an deine dedizierte IP.

Kann ich LLMs auf einer reinen CPU-VPS betreiben?

Ja, für kleinere Modelle. Llama 3 8B und Mistral 7B laufen auf einer 16 GB CPU-Instanz, Qwen 0.5B–3B und Gemma 2B laufen problemlos auf 4 GB. Der Durchsatz hängt von Modellgröße und Prompt ab. CPU ist langsamer als GPU, aber ausreichend für APIs mit geringem Volumen, Nebenprojekte und Entwicklungsarbeit.

Gibt es GPU-Pläne für größere Modelle?

Ja. Für Modelle der 70B-Klasse oder Hochdurchsatz-Inferenz stehen unsere GPU-Pläne zur Verfügung (RTX 4090, RTX 5090, A100). Die 4090 verarbeitet Llama 3 70B mit Quantisierung; A100 80 GB führt große Modelle in voller Präzision aus. Den Link findest du auf der Preisseite.

Wird die OpenAI-kompatible API unterstützt?

Ja. Ollama stellt einen `/v1/chat/completions`-Endpunkt bereit, der als direkter Ersatz für den OpenAI-Client funktioniert. Richte deine bestehende App auf `http://your-vps:11434/v1` und passe den Modellnamen an. Gleiches SDK, kein Umbau nötig.

Wie viel Speicherplatz benötigt ein Modell?

Das kommt darauf an. Ein 4-Bit-quantisiertes 7B-Modell belegt etwa 4 GB. Ein 8B-Modell etwa 5 GB. Ein 70B-Modell bei 4-Bit rund 40 GB. Lade so viele Modelle, wie der Speicher hergibt. Die Tarife beginnen bei 60 GB NVMe und reichen bis 1,5 TB - kombiniere beliebige Modelle auf einer einzigen Maschine.

Wie schnell ist die Bereitstellung?

Sobald die Zahlung bestätigt ist, läuft dein VPS in 60 Sekunden. Mit dem Ein-Klick-Installer von Ollama ist die Runtime in einer weiteren Minute einsatzbereit. Der erste Modell-Download dauert länger (netzwerkabhängig), danach werden Modelle auf NVMe warm gecacht.

Do I get a dedicated IP?

Ja, jeder VPS erhält eine dedizierte statische IPv4 sowie IPv6. Erreichst du das Ollama API über die dedizierte IP, schalte einen Caddy-Reverse-Proxy davor für HTTPS auf einem echten Hostnamen - fertig. Floating IPs sind verfügbar.

Gibt es versteckte Gebühren?

Nein. Ausgehender Traffic ist im monatlichen Transfer-Kontingent enthalten. Snapshots sind kostenlos. IPv4 und IPv6 sind inklusive. Root-Zugriff ist inklusive. Die einzigen kostenpflichtigen Extras sind Floating IPs (2,50 $/Monat) und zusätzliche Snapshots über das kostenlose Kontingent hinaus.

Gibt es eine Geld-zurück-Garantie?

Ja, 14 Tage nach dem Kauf, ohne Rückfragen, vollständige Rückerstattung. Antrag über das Panel oder per E-Mail an [email protected].

Bereit, wenn du es bist.
ollama run, in 60 Sekunden.

Region wählen, klicken, Modell laden. Deine private LLM, deine dedizierte IP.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar