50% off wszystkie plany, oferta czasowa. Od $2.48/mo

Ollama VPS Hosting

Uruchom open-source
LLMs na Twoim VPS.

Gotowy na AI na najnowszym AMD EPYC i czystym NVMe.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma - wszystko pod Twoim adresem IP.

4.6· 713 reviews on Trustpilot

Starting at $2.48/mo · 50% taniej · Bez karty kredytowej

~ ssh root@ollama-lon-001connected
root@ollama-lon-001:~# ollama pull llama3
pobieranie manifestu… pobieranie modelu 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, czyli Virtual Private Server, to zwirtualizowany
środowisko obliczeniowe z własnym systemem operacyjnym i dedykowanymi
zasoby hostowane w chmurze…
root@ollama-lon-001:~# _

Ollama VPS w skrócie

Cloudzy hosts OllamaVPS gotowe na -od 12 regions w Ameryce Północnej, Europie, na Bliskim Wschodzie i w Azji, zaczynając od $2.48 per month. Plany zaczynają się od 512 MB to 64 GB DDR5, all on NVMe storage with 40 Gbps łącza. Ollama instaluje się jednym kliknięciem; pobierz Llama 3, Mistral, Qwen, DeepSeek, Gemma i serwuj je za pośrednictwem Zgodny z OpenAI API. Servers provision in 60 seconds. Cloudzy działa niezależnie od 2008 and is rated 4.6 / 5 by 713+ reviewers on Trustpilot.

Starting price
$2.48 / month
Provisioning
60 seconds
Regions
12 worldwide
Uptime SLA
99.95%
Money-back
14 days
Founded
2008

Dlaczego programiści wybierają Cloudzy

An LLM host favorite.

Cztery rzeczy, na które faktycznie zwracają uwagę kupujący - i robimy je dobrze.

Zoptymalizowany pod kątem inferencji

AMD EPYC, NVMe-only storage, DDR5 memory, 40 Gbps uplinks. Model weights load from NVMe in seconds; no slow disk choking your first response.

Testuj bez ryzyka

14-dniowa gwarancja zwrotu pieniędzy na każdym planie. Bez pytań. Bez opłat konfiguracyjnych. Anuluj z poziomu dashboardu w dowolnej chwili.

99.95% uptime SLA

Automatyczny monitoring w 12 regionach. SLA z ostatnich 30 dni jest publicznie dostępny na status.cloudzy.com - żadnego ukrywania za PR-em.

24/7 human support

Czat na żywo i odpowiedzi na zgłoszenia zazwyczaj w mniej niż 5 minut. Inżynierowie, nie odczytywacze scenariuszy. Mediana czasu rozwiązania poniżej 1 godziny.

Wybierz swój model

Modele open-weight.
Jedno polecenie i gotowe.

Llama 3 do bezpiecznych zastosowań, Mistral do ogólnego czatu, Qwen do obsługi wielu języków, DeepSeek do kodu, Gemma do lekkich zadań CPU. Łącz dowolnie, wszystko na tym samym NVMe.

Własne modele GGUF można wgrać na każdym planie
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Microsoft small models

Use cases

Dlaczego deweloperzy wybierają
Cloudzy Ollama VPS.

Prywatny API dla Twojej aplikacji

Endpoint kompatybilny z OpenAI na Twoim dedykowanym IP. Twórz funkcje czatu, narzędzia do podsumowań lub agentów bez przesyłania zapytań użytkowników do zewnętrznych dostawców.

Background agents

Długo działające agenty przetwarzające e-maile wsadowo, scrapujące strony czy automatycznie tagujące zgłoszenia nie pasują do API rozliczanych za użycie. Płaski abonament na VPS rozwiązuje ten problem. Ustaw zadanie cron, uderz w Ollama, czekaj, powtarzaj.

Code assistants

Uruchom DeepSeek-Coder lub Qwen-Coder jako backend dla wtyczki Continue lub Tabby w swoim edytorze. Szybkie podpowiedzi, bez opłat za każdą sugestię, bez wysyłania kodu do zewnętrznych dostawców.

Hobbystyczny czat i dema RAG

Pobierz model, podłącz Open WebUI lub LibreChat, udostępnij link znajomym. Cały stack na jednym VPS za cenę kilku kaw miesięcznie.

LLM przyjazne wymogom compliance

Wrażliwe dane (prawne, medyczne, dokumenty wewnętrzne) pozostają na Twoim VPS. Audytuj dostęp przez iptables i journald, Twój model, Twój perimetr.

Trenuj własne fine-tune

Pobierz bazowe wagi, wytrenuj model na maszynie GPU, wgraj GGUF z powrotem na CPU Ollama VPS do inferencji. Tanie serwowanie na co dzień, inwestuj tylko wtedy, gdy trenujesz.

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12 regionów. Cztery kontynenty.
Wybierz swój, pobierz model.

Postaw swój serwer inferencji blisko użytkowników. Mediane opóźnienie P50 poniżej 10 ms w Ameryce Północnej i Europie.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Pricing

Płać za to, czego używasz. That's it.

Godzinowo, miesięcznie lub rocznie. Bez opłat za transfer. Bez zobowiązań. Aktualnie 50% off all plans.

1 GB DDR5

Lekkie modele CPU · 1B–3B

$3.48/mo
$6.95/mo−50%
Deploy now
14-dniowy zwrot pieniędzy
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama jednym kliknięciem
2 GB DDR5

7B / 8B on CPU

$7.475/mo
$14.95/mo−50%
Deploy now
14-dniowy zwrot pieniędzy
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama jednym kliknięciem

FAQ. Ollama VPS

Common questions, straight answers.

Czym jest Ollama VPS?

Ollama VPS to serwer chmurowy Cloudzy skonfigurowany do uruchamiania Ollama, lokalnego środowiska uruchomieniowego LLM. Pobieraj modele open-source takie jak Llama 3, Mistral, Qwen, DeepSeek lub Gemma, udostępniaj je za własnym API kompatybilnym z OpenAI i buduj aplikacje czatu, agentów oraz narzędzia bez przesyłania ruchu do zewnętrznych dostawców modeli.

Czy Ollama jest preinstalowany?

Ollama jest dostępny jako instalacja jednym kliknięciem z panelu. Wybierz szablon Linux, plik binarny trafi na Twój PATH, a `ollama pull llama3` działa w ciągu minuty. Serwer HTTP API nasłuchuje domyślnie na porcie 11434; podepnij go do swojego dedykowanego IP za odwrotnym proxy.

Czy mogę uruchamiać LLM na serwerze tylko z CPU?

Tak, dla mniejszych modeli. Llama 3 8B i Mistral 7B działają na maszynie z 16 GB CPU, Qwen 0.5B–3B i Gemma 2B bez problemu na 4 GB. Przepustowość zależy od rozmiaru modelu i promptu; CPU jest wolniejszy niż GPU, ale sprawdza się przy niewielkim ruchu, projektach pobocznych i pracy deweloperskiej.

Czy oferujecie plany z GPU dla większych modeli?

Tak. Do modeli klasy 70B lub inferencji o wysokiej przepustowości sprawdź nasze plany z GPU (RTX 4090, RTX 5090, A100). 4090 obsługuje Llama 3 70B z kwantyzacją; A100 80GB uruchamia duże modele z pełną precyzją. Link znajdziesz na stronie cennika.

Czy API kompatybilne z OpenAI jest obsługiwane?

Tak. Ollama udostępnia endpoint `/v1/chat/completions`, który jest w pełni zgodny z klientem OpenAI. Skieruj swoją aplikację na `http://your-vps:11434/v1` i zmień nazwę modelu. Ten sam SDK, żadnych przepisywań.

Ile miejsca na dysku zajmuje model?

To zależy. 7B model skwantyzowany do 4 bitów zajmuje około 4 GB. 8B to około 5 GB. 70B przy 4-bitach to ~40 GB. Pobieraj tyle modeli, ile masz miejsca. Plany zaczynają się od 60 GB NVMe i sięgają 1,5 TB; możesz dowolnie łączyć modele na jednej maszynie.

Jak szybko następuje uruchomienie?

Po potwierdzeniu płatności Twój VPS jest gotowy w 60 sekund. Po instalacji jednym kliknięciem Ollama środowisko uruchomieniowe działa w kolejną minutę. Pierwsze pobranie modelu trwa dłużej (ograniczenie sieci), ale kolejne są szybko ładowane z cache na NVMe.

Do I get a dedicated IP?

Tak, każdy VPS ma dedykowany statyczny IPv4 oraz IPv6. Uzyskaj dostęp do Ollama API przez dedykowane IP, postaw przed nim odwrotne proxy Caddy dla HTTPS na prawdziwej domenie i gotowe. Dostępne są również pływające IP.

Czy są ukryte opłaty?

Nie. Ruch wychodzący wlicza się w miesięczny limit transferu. Snapshoty są bezpłatne. IPv4 + IPv6 są w cenie. Dostęp root jest w cenie. Płatne dodatki to tylko Floating IP ($2.50/miesiąc) oraz dodatkowe snapshoty powyżej bezpłatnego limitu.

Czy jest dostępna gwarancja zwrotu pieniędzy?

Tak, 14 dni od zakupu, bez pytań, pełny zwrot środków. Złóż wniosek z panelu lub napisz na [email protected].

Gotowe, kiedy Ty jesteś.
ollama run, w 60 sekund.

Wybierz region, kliknij, pobierz model. Twój prywatny LLM, Twoje dedykowane IP.

Bez karty kredytowej · 14-dniowa gwarancja zwrotu pieniędzy · Anuluj w dowolnym momencie