Перейти до основного вмісту
Знижка 50% усі плани, обмежений час. Від $2.48/mo

Ollama VPS Хостинг

Запускайте open-source
LLMs на вашому VPS.

Готовий до Ollama VPS на найновішому AMD EPYC та чистому NVMe.
Незалежні з 2008 року. Llama, Mistral, Qwen, DeepSeek, Gemma — все під вашою IP-адресою.

4.7 · 755 reviews on Trustpilot

Від $2.48/mo · Знижка 50% · Без банківської картки

~ ssh root@ollama-lon-001 підключено
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS — коротко про головне

Cloudzy розміщує Ollama-ready VPS від 13 регіонів у Північній Америці, Європі, на Близькому Сході та в Азії, від $2.48 per month. Плани від 512 MB to 64 GB DDR5, все на Сховище NVMe з 40 Gbps посилання мережі Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma і роздавати їх через OpenAI-сумісний APIСерверисуватися за 60 секунд. Cloudzy has operated independently since 2008 та має рейтинг 4.7 / 5 by 755+ reviewers на Trustpilot.

Стартова ціна
$2.48 / month
Підготовка
60 секунд
Регіони
13 по всьому світу
SLA аптайму
99.95%
Повернення грошей
14 днів
Засновано
2008

Чому розробники обирають Cloudzy

Хост LLM улюблене

Чотири речі, за якими покупці насправді нас порівнюють. Зроблено правильно.

Налаштовано для інференсу

AMD EPYC, виключно сховище NVMe, пам'ять DDR5, висхідні канали зі швидкістю 40 Gbps. Ваги моделей завантажуються з NVMe за секунди; жодного повільного диска, що гальмував би вашу першу відповідь.

Тестування без ризику

14-денна гарантія повернення коштів за кожним тарифом. Жодних запитань. Без плати за налаштування. Скасуйте будь-коли з панелі керування.

SLA 99,95% аптайму

Автоматизований моніторинг у 13 регіонах. SLA за останні 30 днів публічно відстежується на status.cloudzy.com, без приховування за PR.

Людська підтримка 24/7

Відповіді в чаті та на тикети зазвичай менш ніж за 5 хвилин. Інженери, а не читачі скриптів. Медіанний час вирішення менше години.

Оберіть модель

Відкриті моделі.
Один запит — і готово.

Llama 3 — для надійного вибору, Mistral — для загального чату, Qwen — для багатомовності, DeepSeek — для коду, Gemma — для легких CPU задач. Поєднуйте як завгодно — все на одному NVMe.

Завантаження власних GGUF-файлів підтримується на кожному тарифі
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Компактні моделі Microsoft

Сценарії використання

Чому розробники обирають
Cloudzy Ollama VPS.

Приватний API для вашого застосунку

OpenAI-сумісний endpoint на вашій виділеній IP-адресі, готовий до роботи з коробки. Створюйте чат-функції, суммаризатори або агентів — без передачі запитів користувачів стороннім провайдерам.

Фонові агенти

Довготривалі агенти, що пакетно обробляють листи, збирають дані з сайтів або автоматично теґують тікети, не вписуються в API з оплатою за запит. Фіксована вартість VPS — так. Налаштуйте cron, зверніться до Ollama, зачекайте, повторіть.

Асистенти коду

Запустіть DeepSeek-Coder або Qwen-Coder через плагін Continue / Tabby у вашому редакторі. Швидке автодоповнення, без оплати за кожну підказку, без передачі коду стороннім.

Хобі-чат і RAG-демо

Завантажте модель, підключіть Open WebUI або LibreChat, поділіться посиланням із друзями. Весь стек на одному VPS за ціну кількох чашок кави на місяць.

LLM для відповідності вимогам

Чутливі дані (юридичні, медичні, внутрішні документи) залишаються на вашому VPS. Контролюйте доступ через iptables і journald — ваша модель, ваш периметр.

Тонке налаштування власних моделей

Завантажте базові ваги, виконайте fine-tuning на GPU-сервері, перенесіть GGUF назад на легкий CPU Ollama VPS для інференсу. Економне обслуговування в будні — витрачайтеся лише під час тренування.

60s
Підготовка
40 Gbps
Висхідна лінія зв'язку
Лише NVMe
Сховище
13
Регіони
99.95%
SLA аптайму
14 days
Повернення грошей

Глобальна мережа

13 регіонів. Чотири континенти.
Обирайте свій варіант і завантажуйте модель.

Розмістіть інференс-хост поближче до ваших користувачів. Медіанна затримка P50 — менше 10 ms у Північній Америці та Європі.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Ціноутворення

Платіть лише за використане. Ось і все.

Погодинно, щомісяця або щороку. Без плати за egress. Без зобов'язань. Зараз Знижка 50% усі плани.

1 GB DDR5

Легкі CPU моделі · 1B–3B

$3.48 /mo
$6.95/mo −50%
Розгорнути зараз
Повернення коштів за 14 днів
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Виділений IPv4 + IPv6
  • Ollama в один клік
2 GB DDR5

7B / 8B на CPU

$7.475 /mo
$14.95/mo −50%
Розгорнути зараз
Повернення коштів за 14 днів
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Виділений IPv4 + IPv6
  • Ollama в один клік

Часті запитання. Ollama VPS

Поширені запитання, прямі відповіді.

Що таке Ollama VPS?

Ollama VPS — це Cloudzy хмарний сервер, налаштований для запуску Ollama, локального LLM-середовища. Завантажуйте моделі з відкритим кодом — Llama 3, Mistral, Qwen, DeepSeek або Gemma — і обслуговуйте їх через власний OpenAI-сумісний API. Створюйте чат-застосунки, агентів і інструменти без передачі трафіку стороннім провайдерам.

Чи встановлений Ollama заздалегідь?

Ollama доступний для встановлення в один клік через панель управління. Оберіть шаблон Linux — бінарний файл одразу з'явиться у вашому PATH, і `ollama pull llama3` запрацює протягом хвилини. HTTP API за замовчуванням слухає порт 11434; прив'яжіть його до вашої виділеної IP-адреси за зворотним проксі.

Чи можна запускати LLM на сервері лише з CPU?

Так, для менших моделей. Llama 3 8B і Mistral 7B працюють на машині з 16 GB CPU, Qwen 0.5B–3B і Gemma 2B комфортно працюють на 4 GB. Пропускна здатність залежить від розміру моделі та промпту; CPU повільніший за GPU, але цілком підходить для малонавантажених API, побічних проєктів і розробки.

Чи є у вас плани з GPU для великих моделей?

Так. Для моделей класу 70B або інференсу з високою пропускною здатністю дивіться наші плани з GPU (RTX 4090, RTX 5090, A100). 4090 справляється з Llama 3 70B із квантизацією; A100 80 GB запускає великі моделі з повною точністю. Посилання є на сторінці тарифів.

Чи підтримується OpenAI-сумісний API?

Так. Ollama надає endpoint `/v1/chat/completions`, який є повністю сумісним із OpenAI-клієнтом. Вкажіть вашому застосунку адресу `http://your-vps:11434/v1` і змініть назву моделі. Той самий SDK, без переписування коду.

Скільки місця займає модель?

Залежить від моделі. 7B-модель із 4-бітною квантизацією важить близько 4 GB. 8B — близько 5 GB. 70B при 4-бітній квантизації — ~40 GB. Завантажуйте стільки моделей, скільки дозволяє місце. Плани починаються від 60 GB NVMe і сягають 1.5 TB; комбінуйте моделі на одному сервері як завгодно.

Як швидко відбувається розгортання?

Після підтвердження оплати ваш VPS запускається за 60 секунд. Із встановленим одним кліком Ollama середовище виконання підіймається ще за хвилину. Перше завантаження моделі займе більше часу (обмежено мережею), але наступні беруться з кешу на NVMe.

Чи отримаю я виділений IP?

Так, кожен VPS отримує виділений статичний IPv4 та IPv6. Звертайтесь до Ollama API через виділений IP, поставте перед ним реверс-проксі Caddy для HTTPS на реальному імені хоста — і готово. Плаваючі IP також доступні.

Чи є приховані комісії?

Ні. Egress входить у ваш місячний обсяг трафіку. Снепшоти безкоштовні. IPv4 + IPv6 включені. Root-доступ включено. Єдині платні доповнення, це Floating IP ($2,50/місяць) та додаткові снепшоти понад безкоштовну квоту.

Чи є гарантія повернення коштів?

Так, 14 днів з моменту купівлі, без зайвих питань, повне повернення коштів. Запит з панелі або листом на [email protected].

Готові, коли ви готові.
ollama run, за 60 секунд.

Оберіть регіон, натисніть, завантажте модель. Ваш приватний LLM, ваш виділений IP.

Без кредитної картки · Гарантія повернення коштів за 14 днів · Скасування в будь-який час