Zum Hauptinhalt springen
50 % Rabatt alle Pläne, begrenzte Zeit. Ab $2.48/mo

Ollama VPS Hosting-Dienst

Open-Source betreiben
LLMs auf deinem VPS.

Ollama-fähiger VPS auf aktueller AMD EPYC und reiner NVMe.
Unabhängig seit 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, alles unter Ihrer eigenen IP.

4.7 · 755 reviews on Trustpilot

Ab $2.48/mo · 50 % Rabatt · Keine Kreditkarte erforderlich

~ ssh root@ollama-lon-001 verbunden
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS auf einen Blick

Cloudzy Hosts Ollama-fähige VPSs ab 13 Regionen in Nordamerika, Europa, dem Nahen Osten und Asien, ab $2.48 per month. Pläne reichen von 512 MB to 64 GB DDR5, alles auf NVMe-Speicher mit 40 Gbps Uplinks. Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma und serve sie hinter einem OpenAI-kompatiblen APIServer-Bereitstellung in 60 Sekunden. Cloudzy has operated independently since 2008 und ist bewertet mit 4.7 / 5 by 755+ reviewers auf Trustpilot.

Einstiegspreis
$2.48 / month
Bereitstellung
60 Sekunden
Regionen
13 weltweit
Uptime-SLA
99.95%
Geld-zurück
14 Tage
Gegründet
2008

Warum Entwickler Cloudzy wählen

Ein LLM-Host technikaffinen Entwicklern.

Die vier Dinge, an denen Kunden uns wirklich messen. Richtig gemacht.

Optimiert für Inferenz

AMD EPYC, NVMe-only-Speicher, DDR5-Arbeitsspeicher, 40 Gbps Uplinks. Modellgewichte laden in Sekunden von NVMe – kein langsamer Datenträger, der die erste Antwort ausbremst.

Risikofreier Test

14 Tage Geld-zurück-Garantie auf jeden Plan. Ohne Wenn und Aber. Keine Setup-Gebühren. Du kannst jederzeit über das Dashboard kündigen.

99,95 % Uptime-SLA

Automatisiertes Monitoring über 13 Regionen. Das SLA der letzten 30 Tage wird öffentlich auf status.cloudzy.com verfolgt, ohne PR-Geschwurbel.

Menschlicher Support rund um die Uhr

Live-Chat- und Ticket-Antworten in der Regel unter 5 Minuten. Ingenieure, keine Skript-Leser. Mittlere Lösungszeit unter 1 Stunde.

Modell auswählen

Open-Weight-Modelle.
Ein Pull entfernt.

Llama 3 für den sicheren Einstieg, Mistral für allgemeinen Chat, Qwen für mehrsprachige Aufgaben, DeepSeek für Code, Gemma für kleine CPU-Workloads. Kombiniere sie nach Bedarf, alle auf demselben NVMe.

Benutzerdefinierter GGUF-Upload in jedem Plan enthalten
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Kleine Microsoft-Modelle

Anwendungsfälle

Warum Entwickler sich entscheiden für
Cloudzy's Ollama VPS.

Privater API für deine App

Ein OpenAI-kompatibler Endpoint auf deiner dedizierten IP, direkt einsatzbereit. Baue Chat-Funktionen, Summarizer oder Agents, ohne Nutzeranfragen an einen Drittanbieter zu schicken.

Hintergrund-Agenten

Lang laufende Agents, die E-Mails stapelweise verarbeiten, Seiten crawlen oder Tickets automatisch taggen, passen nicht zu nutzungsbasiert abgerechneten APIs. Ein VPS mit Pauschalpreis schon. Cron-Job einrichten, Ollama aufrufen, warten, wiederholen.

Code-Assistenten

Führe DeepSeek-Coder oder Qwen-Coder hinter dem Continue / Tabby Plugin deines Editors aus. Schnelle Autovervollständigung, keine Kosten pro Vorschlag, kein Code geht an Drittanbieter.

Hobby-Chat & RAG-Demos

Lade ein Modell herunter, verbinde Open WebUI oder LibreChat, teile einen Link mit Freunden. Der komplette Stack auf einer VPS für ein paar Euro im Monat.

LLMs für Compliance-Anforderungen

Sensible Daten (Recht, Gesundheitswesen, interne Dokumente) bleiben auf deiner VPS. Auditiere Zugriffe mit iptables und journald - dein Modell, dein Perimeter.

Eigene Fine-Tunes erstellen

Lade Basisgewichte herunter, führe das Fine-Tuning auf einer GPU-Instanz durch, und deploy das GGUF zurück auf eine CPU Ollama VPS für Inferenz. Günstiger Betrieb unter der Woche, Mehrausgaben nur beim Training.

60s
Bereitstellung
40 Gbps
Aufwärtsverbindung
Nur NVMe
Speicher
13
Regionen
99.95%
Uptime-SLA
14 days
Geld-zurück

Globales Netzwerk

13 Regionen. Vier Kontinente.
Wähle deine Instanz und lade ein Modell.

Platziere deinen Inferenz-Host in der Nähe deiner Nutzer. Median-P50-Latenz unter 10 ms in Nordamerika und Europa.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Preise

Bezahlen Sie nur, was Sie nutzen. Das war's.

Stündlich, monatlich oder jährlich. Keine Egress-Gebühren. Keine Verpflichtungen. Aktuell 50 % Rabatt alle Pläne.

1 GB DDR5

Kleine CPU-Modelle · 1B–3B

$3.48 /mo
$6.95/mo −50%
Jetzt deployen
14 Tage Geld-zurück-Garantie
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedizierte IPv4 + IPv6
  • One-Click Ollama
2 GB DDR5

7B / 8B auf CPU

$7.475 /mo
$14.95/mo −50%
Jetzt deployen
14 Tage Geld-zurück-Garantie
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedizierte IPv4 + IPv6
  • One-Click Ollama

Häufig gestellte Fragen. Ollama VPS

Häufige Fragen, klare Antworten.

Was ist eine Ollama VPS?

Eine Ollama VPS ist ein Cloudzy Cloud-Server, der für den Betrieb von Ollama konfiguriert ist - der lokalen LLM-Laufzeitumgebung. Lade Open-Source-Modelle wie Llama 3, Mistral, Qwen, DeepSeek oder Gemma herunter, stelle sie hinter deiner eigenen OpenAI-kompatiblen API bereit und entwickle Chat-Apps, Agents und Tools, ohne Traffic an externe Modellanbieter zu senden.

Ist Ollama vorinstalliert?

Ollama steht als One-Click-Installation über das Panel bereit. Wähle ein Linux-Template, das Binary landet in deinem PATH, und `ollama pull llama3` funktioniert innerhalb einer Minute. Die HTTP API lauscht standardmäßig auf Port 11434. Binde sie über einen Reverse Proxy an deine dedizierte IP.

Kann ich LLMs auf einer reinen CPU-VPS betreiben?

Ja, für kleinere Modelle. Llama 3 8B und Mistral 7B laufen auf einer 16 GB CPU-Instanz, Qwen 0.5B–3B und Gemma 2B laufen problemlos auf 4 GB. Der Durchsatz hängt von Modellgröße und Prompt ab. CPU ist langsamer als GPU, aber ausreichend für APIs mit geringem Volumen, Nebenprojekte und Entwicklungsarbeit.

Gibt es GPU-Pläne für größere Modelle?

Ja. Für Modelle der 70B-Klasse oder Hochdurchsatz-Inferenz stehen unsere GPU-Pläne zur Verfügung (RTX 4090, RTX 5090, A100). Die 4090 verarbeitet Llama 3 70B mit Quantisierung; A100 80 GB führt große Modelle in voller Präzision aus. Den Link findest du auf der Preisseite.

Wird die OpenAI-kompatible API unterstützt?

Ja. Ollama stellt einen `/v1/chat/completions`-Endpunkt bereit, der als direkter Ersatz für den OpenAI-Client funktioniert. Richte deine bestehende App auf `http://your-vps:11434/v1` und passe den Modellnamen an. Gleiches SDK, kein Umbau nötig.

Wie viel Speicherplatz benötigt ein Modell?

Das kommt darauf an. Ein 4-Bit-quantisiertes 7B-Modell belegt etwa 4 GB. Ein 8B-Modell etwa 5 GB. Ein 70B-Modell bei 4-Bit rund 40 GB. Lade so viele Modelle, wie der Speicher hergibt. Die Tarife beginnen bei 60 GB NVMe und reichen bis 1,5 TB - kombiniere beliebige Modelle auf einer einzigen Maschine.

Wie schnell ist die Bereitstellung?

Sobald die Zahlung bestätigt ist, läuft dein VPS in 60 Sekunden. Mit dem Ein-Klick-Installer von Ollama ist die Runtime in einer weiteren Minute einsatzbereit. Der erste Modell-Download dauert länger (netzwerkabhängig), danach werden Modelle auf NVMe warm gecacht.

Bekomme ich eine dedizierte IP?

Ja, jeder VPS erhält eine dedizierte statische IPv4 sowie IPv6. Erreichst du das Ollama API über die dedizierte IP, schalte einen Caddy-Reverse-Proxy davor für HTTPS auf einem echten Hostnamen - fertig. Floating IPs sind verfügbar.

Gibt es versteckte Gebühren?

Nein. Egress ist im monatlichen Transfer-Kontingent enthalten. Snapshots sind kostenlos. IPv4 + IPv6 sind inklusive. Root-Zugriff ist enthalten. Die einzigen kostenpflichtigen Extras sind Floating IPs (2,50 $/Monat) und zusätzliche Snapshots über das kostenlose Kontingent hinaus.

Gibt es eine Geld-zurück-Garantie?

Ja, 14 Tage ab Kauf, ohne Wenn und Aber, volle Rückerstattung. Beantragen Sie es im Panel oder per E-Mail an [email protected].

Bereit, wenn Sie es sind.
ollama run, in 60 Sekunden.

Region wählen, klicken, Modell laden. Deine private LLM, deine dedizierte IP.

Keine Kreditkarte erforderlich · 14 Tage Geld-zurück-Garantie · Jederzeit kündbar