What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Hosting Ollama VPS

Provozujte open-source
LLMy na svém VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

VPS připravený pro Ollama s nejnovějším AMD EPYC a čistým NVMe.
Nezávislí od roku 2008. Lama, Mistral, Qwen, DeepSeek, Gemma, vše pod vaší IP adresou.

4.6· 735 reviews on Trustpilot

Nasaďte Ollama VPS Porovnat plány

Začínající na $2.48/mo · 50% sleva · Bez kreditní karty

~ ssh root@ollama-lon-001připojen

root@ollama-lon-001:~# ollama pull llama3
stahování manifestu... stahování modelu 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "Co je VPS?"
VPS, neboli Virtual Private Server, je virtualizované
výpočetní prostředí s vlastním OS a dedikovanými
prostředky, provozované v cloudu...
root@ollama-lon-001:~# _

Ollama VPS v kostce

Cloudzy hostuje Ollama-připravené VPS od 12 regionů po Severní Americe, Evropě, Středním východě a Asii, od $2.48 per month. Plány začínají od 512 MB to 64 GB DDR5, všechny na Úložiště NVMe s 40 Gbps uplinks. Ollama se nainstaluje jedním kliknutím; stáhněte Llama 3, Mistral, Qwen, DeepSeek, Gemma a obsluhujte je přes OpenAI-kompatibilní APIServery se zřizují v 60 sekund. Cloudzy funguje nezávisle od roku 2008 a má hodnocení 4.6 / 5 by 735+ reviewers na Trustpilot.

Počáteční cena: $2.48 / month
Zřizování: 60 sekund
Oblasti: 12 celosvětově
Dostupnost SLA: 99.95%
Vrácení peněz: 14 dní
Založeno: 2008

Proč vývojáři volí Cloudzy

Hostitel LLM oblíbené

Čtyři věci, podle kterých nás zákazníci skutečně porovnávají. Zvládáme je dobře.

Optimalizováno pro inferenci

AMD EPYC, úložiště pouze na NVMe, paměť DDR5, 40 Gbps uplinks. Váhy modelu se načtou z NVMe během pár sekund - žádný pomalý disk, který by zdržoval první odpověď.

Vyzkoušení bez rizika

14denní záruka vrácení peněz na každý plán. Bez otázek. Bez poplatků za nastavení. Zrušení přímo z dashboardu kdykoliv.

99,95% SLA dostupnosti

Automatizovaný monitoring ve 12 regionech. Dostupnost za posledních 30 dní SLA je veřejně sledována na status.cloudzy.com – žádné skrývání za PR.

Lidská podpora 24/7

Live chat a odpovědi na tikety zpravidla do 5 minut. Odpovídají technici, ne roboti. Medián doby řešení pod 1 hodinu.

Vyberte model

Modely s otevřenými váhami.
Jeden příkaz a jedete.

Llama 3 jako spolehlivá volba, Mistral pro obecný chat, Qwen pro vícejazyčné použití, DeepSeek pro kód, Gemma pro nenáročné CPU úlohy. Kombinujte libovolně, vše na jednom NVMe.

Nahrání vlastního GGUF podporováno v každém plánu

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Malé modely od Microsoftu

Případy použití

Proč si vývojáři vybírají
Cloudzy Ollama VPS.

Privátní API pro vaši aplikaci

OpenAI-kompatibilní endpoint přímo na vaší dedikované IP. Stavte chatovací funkce, sumarizátory nebo agenty, aniž byste odesílali uživatelské dotazy třetí straně.

Agenti na pozadí

Dlouhodobě běžící agenti, kteří dávkově zpracovávají e-maily, scrapují weby nebo automaticky tagují tikety, se do usage-based API nevejdou. Paušální VPS ano. Naplánujte úlohu přes cron, zavolejte Ollama, počkejte, opakujte.

Asistenti kódu

Spusťte DeepSeek-Coder nebo Qwen-Coder za Continue / Tabby pluginem vašeho editoru. Rychlé doplňování kódu, žádné poplatky za návrh, žádný kód odesílaný k vendorům.

Hobby chat a RAG dema

Stáhněte model, napojte Open WebUI nebo LibreChat, sdílejte odkaz s přáteli. Celý stack na jednom VPS za cenu pár káv měsíčně.

LLM splňující požadavky na shodu

Citlivá data (právní, zdravotnická, interní dokumenty) zůstávají na vašem VPS. Auditujte přístupy pomocí iptables a journald, váš model, váš perimetr.

Trénujte vlastní fine-tuny

Stáhněte základní váhy, dotrénujte na GPU stroji, nahrajte GGUF zpět na CPU Ollama VPS pro inferenci. Levný provoz ve všední dny, investujte jen při trénování.

60s

Zřizování

40 Gbps

Spojení nahoru

Pouze NVMe

Úložiště

Oblasti

99.95%

Dostupnost SLA

14 dní

Vrácení peněz

Globální síť

12 regionů. Čtyři kontinenty.
Vyberte si svůj a stáhněte model.

Umístěte inference server blízko vašich uživatelů. Medián P50 latence pod 10 ms v Severní Americe a Evropě.

Zobrazit všech 12 regionů

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Ceny

Plaťte jen za to, co skutečně využijete. To je vše.

Hodinově, měsíčně nebo ročně. Bez poplatků za odchozí provoz. Bez závazků. Aktuálně Sleva 50% všechny plány.

1 GB DDR5

Malé CPU modely · 1B–3B

$3.48/měsíc

$6.95/mo−50%

Nasadit nyní

14denní záruka vrácení peněz

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
Dedikovaná IPv4 + IPv6
Ollama jedním kliknutím

2 GB DDR5

7B / 8B na CPU

$7.475/měsíc

$14.95/mo−50%

Nasadit nyní

14denní záruka vrácení peněz

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
Dedikovaná IPv4 + IPv6
Ollama jedním kliknutím

Nejpopulárnější

4 GB DDR5

Inference středně velkých CPU modelů

$14.47/měsíc

$28.95/mo−50%

Nasadit nyní

14denní záruka vrácení peněz

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
Dedikovaná IPv4 + IPv6
Ollama jedním kliknutím

Nejpopulárnější

8 GB DDR5

Větší kontext · hostování API

$26.475/měsíc

$52.95/mo−50%

Nasadit nyní

14denní záruka vrácení peněz

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
Dedikovaná IPv4 + IPv6
Ollama jedním kliknutím

Potřebujete víc? Zobrazit všech 10 plánů (až 64 GB)

Často kladené otázky. Ollama VPS

Běžné otázky, přímé odpovědi.

Co je Ollama VPS?

Ollama VPS je Cloudzy cloudový server nakonfigurovaný ke spuštění Ollama, runtime pro lokální LLM. Stáhněte open-source modely jako Llama 3, Mistral, Qwen, DeepSeek nebo Gemma, provozujte je za vlastním OpenAI-kompatibilním API a stavte chatovací aplikace, agenty i nástroje bez odesílání provozu třetímu poskytovateli modelů.

Je Ollama předinstalován?

Ollama je dostupný jako instalace jedním kliknutím přímo z panelu. Vyberte šablonu Linux, binárka se přidá do PATH a `ollama pull llama3` funguje do minuty. HTTP API Ollama naslouchá na portu 11434; připojte ho k vaší dedikované IP za reverzní proxy.

Mohu spouštět LLM modely na VPS pouze s CPU?

Ano, pro menší modely. Llama 3 8B a Mistral 7B běží na stroji s 16 GB CPU, Qwen 0.5B–3B a Gemma 2B pohodlně na 4 GB. Propustnost závisí na velikosti modelu a promptu. CPU je pomalejší než GPU, ale pro nízkou zátěž, vedlejší projekty a vývojové účely to stačí.

Nabízíte plány s GPU pro větší modely?

Ano. Pro modely třídy 70B nebo vysokou propustnost inference se podívejte na naše GPU plány (RTX 4090, RTX 5090, A100). RTX 4090 zvládne Llama 3 70B s kvantizací; A100 80 GB spustí velké modely v plné přesnosti. Odkaz najdete na stránce s cenami.

Je podporován OpenAI-kompatibilní API?

Ano. Ollama zpřístupňuje endpoint `/v1/chat/completions`, který je přímo kompatibilní s OpenAI klientem. Nasměrujte svou stávající aplikaci na `http://your-vps:11434/v1` a změňte název modelu. Stejné SDK, žádné přepisování.

Kolik místa na disku model zabere?

Záleží na modelu. 4-bitově kvantizovaný model 7B zabírá přibližně 4 GB. Model 8B přibližně 5 GB. Model 70B na 4 bity přibližně 40 GB. Stáhněte si tolik modelů, kolik máte místa. Plány začínají na 60 GB NVMe a sahají až na 1,5 TB; modely na jednom stroji lze libovolně kombinovat.

Jak rychle probíhá zřízení serveru?

Jakmile je platba potvrzena, váš VPS běží do 60 sekund. S nainstalovaným Ollama jedním kliknutím je runtime připravený za další minutu. První stažení modelu trvá déle (omezeno sítí), další jsou ale rychle k dispozici z mezipaměti na NVMe.

Dostanu vyhrazenou IP adresu?

Ano, každý VPS má dedikovanou statickou IPv4 adresu a IPv6. Ollama API je dostupný přes dedikovanou IP; přidejte před něj reverzní proxy Caddy pro HTTPS s vlastní doménou a je to. Plovoucí IP adresy jsou k dispozici.

Jsou tam skryté poplatky?

Ne. Odchozí provoz je zahrnut v měsíčním datovém limitu. Snapshoty jsou zdarma. IPv4 + IPv6 jsou v ceně. Root přístup je v ceně. Jediné placené doplňky jsou plovoucí IP adresy (2,50 $/měsíc) a dodatečné snapshoty nad rámec bezplatného limitu.

Je k dispozici záruka vrácení peněz?

Ano, 14 dní od nákupu, bez otázek, plná refundace. Požádejte přes panel nebo e-mailem na [email protected].

Připraven, když si přeješ.
ollama run, za 60 sekund.

Vyberte region, klikněte, stáhněte model. Váš soukromý LLM, vaše dedikovaná IP.

Nasaďte Ollama VPS Porovnat všechny plány

Bez nutnosti platební karty · 14denní záruka vrácení peněz · Zrušení kdykoliv

Provozujte open-sourceLLMy na svém VPS.

Hostitel LLM oblíbené

Optimalizováno pro inferenci

Vyzkoušení bez rizika

99,95% SLA dostupnosti

Lidská podpora 24/7

Modely s otevřenými váhami.Jeden příkaz a jedete.

Proč si vývojáři vybírajíCloudzy Ollama VPS.

Privátní API pro vaši aplikaci

Agenti na pozadí

Asistenti kódu

Hobby chat a RAG dema

LLM splňující požadavky na shodu

Trénujte vlastní fine-tuny

12 regionů. Čtyři kontinenty.Vyberte si svůj a stáhněte model.

Plaťte jen za to, co skutečně využijete. To je vše.

Běžné otázky, přímé odpovědi.

Co je Ollama VPS?

Je Ollama předinstalován?

Mohu spouštět LLM modely na VPS pouze s CPU?

Nabízíte plány s GPU pro větší modely?

Je podporován OpenAI-kompatibilní API?

Kolik místa na disku model zabere?

Jak rychle probíhá zřízení serveru?

Dostanu vyhrazenou IP adresu?

Jsou tam skryté poplatky?

Je k dispozici záruka vrácení peněz?

Připraven, když si přeješ.ollama run, za 60 sekund.

Provozujte open-source
LLMy na svém VPS.

Modely s otevřenými váhami.
Jeden příkaz a jedete.

Proč si vývojáři vybírají
Cloudzy Ollama VPS.

12 regionů. Čtyři kontinenty.
Vyberte si svůj a stáhněte model.

Připraven, když si přeješ.
ollama run, za 60 sekund.