Przejdź do treści głównej
50% zniżki wszystkie plany, oferta limitowana. Od $2.48/mo

Hosting VPS Ollama

Uruchom open-source
LLMs na Twoim VPS.

Gotowy na AI na najnowszym AMD EPYC i czystym NVMe.
Niezależni od 2008 roku. Llama, Mistral, Qwen, DeepSeek, Gemma - wszystko pod Twoim adresem IP.

4.7 · 755 reviews on Trustpilot

Od $2.48/mo · 50% zniżki · Bez karty kredytowej

~ ssh root@ollama-lon-001 połączony
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS w skrócie

Cloudzy gospodyni OllamaVPS gotowe na -od 13 regionów w Ameryce Północnej, Europie, na Bliskim Wschodzie i w Azji, od $2.48 per month. Plany zaczynają się od 512 MB to 64 GB DDR5, wszystkie na Pamięć NVMe z 40 Gbps łącza nadrzędne Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma i serwuj je za pośrednictwem Zgodny z OpenAI APISerwery uruchamiają się w 60 sekund. Cloudzy has operated independently since 2008 i ma ocenę 4.7 / 5 by 755+ reviewers na Trustpilot.

Cena początkowa
$2.48 / month
Aprowizacja
60 sekund
Regiony
13 na całym świecie
SLA uptime
99.95%
Zwrot pieniędzy
14 dni
Założony
2008

Dlaczego deweloperzy wybierają Cloudzy

Host LLM ulubiony

Cztery rzeczy, na których kupujący nas porównują, zrobione dobrze.

Zoptymalizowany pod kątem inferencji

AMD EPYC, magazyn tylko NVMe, pamięć DDR5, łącza wzrostowe 40 Gbps. Wagi modelu ładują się z NVMe w sekundach; żaden wolny dysk nie spowalnia Twojej pierwszej odpowiedzi.

Okres próbny bez ryzyka

14-dniowa gwarancja zwrotu pieniędzy na każdym planie. Bez zbędnych pytań. Bez opłat aktywacyjnych. Anuluj z panelu w dowolnym momencie.

99,95% SLA uptime

Zautomatyzowany monitoring w 13 regionach. SLA z ostatnich 30 dni jest publicznie śledzony na status.cloudzy.com, bez chowania się za PR-em.

Wsparcie ludzkie 24/7

Czat na żywo i odpowiedzi na zgłoszenia zazwyczaj poniżej 5 minut. Inżynierowie, nie czytacze skryptów. Mediana rozwiązania problemu poniżej 1 godziny.

Wybierz swój model

Modele open-weight.
Jedno polecenie i gotowe.

Llama 3 do bezpiecznych zastosowań, Mistral do ogólnego czatu, Qwen do obsługi wielu języków, DeepSeek do kodu, Gemma do lekkich zadań CPU. Łącz dowolnie, wszystko na tym samym NVMe.

Własne modele GGUF można wgrać na każdym planie
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Małe modele Microsoft

Przypadki użycia

Dlaczego deweloperzy wybierają
Cloudzy Ollama VPS.

Prywatny API dla Twojej aplikacji

Endpoint kompatybilny z OpenAI na Twoim dedykowanym IP. Twórz funkcje czatu, narzędzia do podsumowań lub agentów bez przesyłania zapytań użytkowników do zewnętrznych dostawców.

Agenty w tle

Długo działające agenty przetwarzające e-maile wsadowo, scrapujące strony czy automatycznie tagujące zgłoszenia nie pasują do API rozliczanych za użycie. Płaski abonament na VPS rozwiązuje ten problem. Ustaw zadanie cron, uderz w Ollama, czekaj, powtarzaj.

Asystenci kodowania

Uruchom DeepSeek-Coder lub Qwen-Coder jako backend dla wtyczki Continue lub Tabby w swoim edytorze. Szybkie podpowiedzi, bez opłat za każdą sugestię, bez wysyłania kodu do zewnętrznych dostawców.

Hobbystyczny czat i dema RAG

Pobierz model, podłącz Open WebUI lub LibreChat, udostępnij link znajomym. Cały stack na jednym VPS za cenę kilku kaw miesięcznie.

LLM przyjazne wymogom compliance

Wrażliwe dane (prawne, medyczne, dokumenty wewnętrzne) pozostają na Twoim VPS. Audytuj dostęp przez iptables i journald, Twój model, Twój perimetr.

Trenuj własne fine-tune

Pobierz bazowe wagi, wytrenuj model na maszynie GPU, wgraj GGUF z powrotem na CPU Ollama VPS do inferencji. Tanie serwowanie na co dzień, inwestuj tylko wtedy, gdy trenujesz.

60s
Aprowizacja
40 Gbps
Łącze wznoszące
Tylko NVMe
Przechowywanie
13
Regiony
99.95%
SLA uptime
14 days
Zwrot pieniędzy

Sieć globalna

13 regionów. Cztery kontynenty.
Wybierz swój, pobierz model.

Postaw swój serwer inferencji blisko użytkowników. Mediane opóźnienie P50 poniżej 10 ms w Ameryce Północnej i Europie.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Ceny

Płać tylko za to, czego używasz. To wszystko.

Godzinowo, miesięcznie lub rocznie. Bez opłat za egress. Bez zobowiązań. Aktualnie 50% zniżki wszystkie plany.

1 GB DDR5

Lekkie modele CPU · 1B–3B

$3.48 /mo
$6.95/mo −50%
Wdróż teraz
Zwrot w ciągu 14 dni
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedykowane IPv4 + IPv6
  • Ollama jednym kliknięciem
2 GB DDR5

7B / 8B na CPU

$7.475 /mo
$14.95/mo −50%
Wdróż teraz
Zwrot w ciągu 14 dni
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedykowane IPv4 + IPv6
  • Ollama jednym kliknięciem

Często zadawane pytania. Ollama VPS

Częste pytania, konkretne odpowiedzi.

Czym jest Ollama VPS?

Ollama VPS to serwer chmurowy Cloudzy skonfigurowany do uruchamiania Ollama, lokalnego środowiska uruchomieniowego LLM. Pobieraj modele open-source takie jak Llama 3, Mistral, Qwen, DeepSeek lub Gemma, udostępniaj je za własnym API kompatybilnym z OpenAI i buduj aplikacje czatu, agentów oraz narzędzia bez przesyłania ruchu do zewnętrznych dostawców modeli.

Czy Ollama jest preinstalowany?

Ollama jest dostępny jako instalacja jednym kliknięciem z panelu. Wybierz szablon Linux, plik binarny trafi na Twój PATH, a `ollama pull llama3` działa w ciągu minuty. Serwer HTTP API nasłuchuje domyślnie na porcie 11434; podepnij go do swojego dedykowanego IP za odwrotnym proxy.

Czy mogę uruchamiać LLM na serwerze tylko z CPU?

Tak, dla mniejszych modeli. Llama 3 8B i Mistral 7B działają na maszynie z 16 GB CPU, Qwen 0.5B–3B i Gemma 2B bez problemu na 4 GB. Przepustowość zależy od rozmiaru modelu i promptu; CPU jest wolniejszy niż GPU, ale sprawdza się przy niewielkim ruchu, projektach pobocznych i pracy deweloperskiej.

Czy oferujecie plany z GPU dla większych modeli?

Tak. Do modeli klasy 70B lub inferencji o wysokiej przepustowości sprawdź nasze plany z GPU (RTX 4090, RTX 5090, A100). 4090 obsługuje Llama 3 70B z kwantyzacją; A100 80GB uruchamia duże modele z pełną precyzją. Link znajdziesz na stronie cennika.

Czy API kompatybilne z OpenAI jest obsługiwane?

Tak. Ollama udostępnia endpoint `/v1/chat/completions`, który jest w pełni zgodny z klientem OpenAI. Skieruj swoją aplikację na `http://your-vps:11434/v1` i zmień nazwę modelu. Ten sam SDK, żadnych przepisywań.

Ile miejsca na dysku zajmuje model?

To zależy. 7B model skwantyzowany do 4 bitów zajmuje około 4 GB. 8B to około 5 GB. 70B przy 4-bitach to ~40 GB. Pobieraj tyle modeli, ile masz miejsca. Plany zaczynają się od 60 GB NVMe i sięgają 1,5 TB; możesz dowolnie łączyć modele na jednej maszynie.

Jak szybkie jest przygotowanie serwera?

Po potwierdzeniu płatności Twój VPS jest gotowy w 60 sekund. Po instalacji jednym kliknięciem Ollama środowisko uruchomieniowe działa w kolejną minutę. Pierwsze pobranie modelu trwa dłużej (ograniczenie sieci), ale kolejne są szybko ładowane z cache na NVMe.

Czy dostaję dedykowane IP?

Tak, każdy VPS ma dedykowany statyczny IPv4 oraz IPv6. Uzyskaj dostęp do Ollama API przez dedykowane IP, postaw przed nim odwrotne proxy Caddy dla HTTPS na prawdziwej domenie i gotowe. Dostępne są również pływające IP.

Czy są ukryte opłaty?

Nie. Egress jest wliczony w Twój miesięczny limit transferu. Snapshoty są darmowe. IPv4 + IPv6 są w cenie. Dostęp root jest w cenie. Jedyne płatne dodatki to Floating IPs ($2,50/miesiąc) i dodatkowe snapshoty poza darmowym limitem.

Czy oferujecie gwarancję zwrotu pieniędzy?

Tak, 14 dni od zakupu, bez zadawania pytań, pełny zwrot. Złóż wniosek z panelu lub napisz na [email protected].

Gotowi, kiedy ty jesteś.
ollama run, w 60 sekund.

Wybierz region, kliknij, pobierz model. Twój prywatny LLM, Twoje dedykowane IP.

Bez karty kredytowej · Zwrot pieniędzy w ciągu 14 dni · Anuluj w dowolnej chwili