50% off усі тарифи, обмежений час. Починаючи від $2.48/mo

Ollama VPS Hosting

Запускайте open-source
LLMs на вашому VPS.

Готовий до Ollama VPS на найновішому AMD EPYC та чистому NVMe.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma — все під вашою IP-адресою.

4.6· 713 reviews on Trustpilot

Starting at $2.48/mo · Знижка 50% · Без кредитної картки

~ ssh root@ollama-lon-001connected
root@ollama-lon-001:~# ollama pull llama3
завантаження маніфесту… завантаження моделі 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, або Virtual Private Server, — це віртуалізований
обчислювальне середовище з власною ОС та виділеними
ресурси, розміщені в хмарі...
root@ollama-lon-001:~# _

Ollama VPS — коротко про головне

Cloudzy hosts Ollama-ready VPS від 12 regions у Північній Америці, Європі, на Близькому Сході та в Азії, починаючи від $2.48 per month. Тарифи починаються від 512 MB to 64 GB DDR5, all on NVMe storage with 40 Gbps аплінки. Ollama встановлюється в один клік; підключіть Llama 3, Mistral, Qwen, DeepSeek, Gemma і роздавати їх через OpenAI-сумісний API. Servers provision in 60 seconds. Cloudzy працює незалежно з 2008 and is rated 4.6 / 5 by 713+ reviewers on Trustpilot.

Starting price
$2.48 / month
Provisioning
60 seconds
Regions
12 worldwide
Uptime SLA
99.95%
Money-back
14 days
Founded
2008

Чому розробники обирають Cloudzy

An LLM host favorite.

Чотири параметри, за якими нас порівнюють найчастіше — і в кожному ми на висоті.

Налаштовано для інференсу

AMD EPYC, NVMe-only storage, DDR5 memory, 40 Gbps uplinks. Model weights load from NVMe in seconds; no slow disk choking your first response.

Тест без ризику

14-денна гарантія повернення коштів для кожного тарифу. Без зайвих запитань. Без плати за підключення. Скасуйте через панель керування будь-коли.

99.95% uptime SLA

Автоматичний моніторинг у 12 регіонах. SLA за останні 30 днів публічно відстежується на status.cloudzy.com — без приховування за PR-формулюваннями.

24/7 human support

Відповіді в чаті та по тікетах зазвичай протягом 5 хвилин. Інженери, а не оператори зі скриптом. Медіанний час вирішення — менше години.

Оберіть модель

Відкриті моделі.
Один запит — і готово.

Llama 3 — для надійного вибору, Mistral — для загального чату, Qwen — для багатомовності, DeepSeek — для коду, Gemma — для легких CPU задач. Поєднуйте як завгодно — все на одному NVMe.

Завантаження власних GGUF-файлів підтримується на кожному тарифі
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Компактні моделі Microsoft

Use cases

Чому розробники обирають
Cloudzy Ollama VPS.

Приватний API для вашого застосунку

OpenAI-сумісний endpoint на вашій виділеній IP-адресі, готовий до роботи з коробки. Створюйте чат-функції, суммаризатори або агентів — без передачі запитів користувачів стороннім провайдерам.

Background agents

Довготривалі агенти, що пакетно обробляють листи, збирають дані з сайтів або автоматично теґують тікети, не вписуються в API з оплатою за запит. Фіксована вартість VPS — так. Налаштуйте cron, зверніться до Ollama, зачекайте, повторіть.

Code assistants

Запустіть DeepSeek-Coder або Qwen-Coder через плагін Continue / Tabby у вашому редакторі. Швидке автодоповнення, без оплати за кожну підказку, без передачі коду стороннім.

Хобі-чат і RAG-демо

Завантажте модель, підключіть Open WebUI або LibreChat, поділіться посиланням із друзями. Весь стек на одному VPS за ціну кількох чашок кави на місяць.

LLM для відповідності вимогам

Чутливі дані (юридичні, медичні, внутрішні документи) залишаються на вашому VPS. Контролюйте доступ через iptables і journald — ваша модель, ваш периметр.

Тонке налаштування власних моделей

Завантажте базові ваги, виконайте fine-tuning на GPU-сервері, перенесіть GGUF назад на легкий CPU Ollama VPS для інференсу. Економне обслуговування в будні — витрачайтеся лише під час тренування.

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12 регіонів. Чотири континенти.
Обирайте свій варіант і завантажуйте модель.

Розмістіть інференс-хост поближче до ваших користувачів. Медіанна затримка P50 — менше 10 ms у Північній Америці та Європі.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Pricing

Платіть лише за те, що використовуєте. That's it.

Погодинно, щомісяця або щороку. Без плати за трафік. Без зобов'язань. Зараз 50% off all plans.

1 GB DDR5

Легкі CPU моделі · 1B–3B

$3.48/mo
$6.95/mo−50%
Deploy now
Повернення коштів протягом 14 днів
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama в один клік
2 GB DDR5

7B / 8B on CPU

$7.475/mo
$14.95/mo−50%
Deploy now
Повернення коштів протягом 14 днів
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Ollama в один клік

FAQ. Ollama VPS

Common questions, straight answers.

Що таке Ollama VPS?

Ollama VPS — це Cloudzy хмарний сервер, налаштований для запуску Ollama, локального LLM-середовища. Завантажуйте моделі з відкритим кодом — Llama 3, Mistral, Qwen, DeepSeek або Gemma — і обслуговуйте їх через власний OpenAI-сумісний API. Створюйте чат-застосунки, агентів і інструменти без передачі трафіку стороннім провайдерам.

Чи встановлений Ollama заздалегідь?

Ollama доступний для встановлення в один клік через панель управління. Оберіть шаблон Linux — бінарний файл одразу з'явиться у вашому PATH, і `ollama pull llama3` запрацює протягом хвилини. HTTP API за замовчуванням слухає порт 11434; прив'яжіть його до вашої виділеної IP-адреси за зворотним проксі.

Чи можна запускати LLM на сервері лише з CPU?

Так, для менших моделей. Llama 3 8B і Mistral 7B працюють на машині з 16 GB CPU, Qwen 0.5B–3B і Gemma 2B комфортно працюють на 4 GB. Пропускна здатність залежить від розміру моделі та промпту; CPU повільніший за GPU, але цілком підходить для малонавантажених API, побічних проєктів і розробки.

Чи є у вас плани з GPU для великих моделей?

Так. Для моделей класу 70B або інференсу з високою пропускною здатністю дивіться наші плани з GPU (RTX 4090, RTX 5090, A100). 4090 справляється з Llama 3 70B із квантизацією; A100 80 GB запускає великі моделі з повною точністю. Посилання є на сторінці тарифів.

Чи підтримується OpenAI-сумісний API?

Так. Ollama надає endpoint `/v1/chat/completions`, який є повністю сумісним із OpenAI-клієнтом. Вкажіть вашому застосунку адресу `http://your-vps:11434/v1` і змініть назву моделі. Той самий SDK, без переписування коду.

Скільки місця займає модель?

Залежить від моделі. 7B-модель із 4-бітною квантизацією важить близько 4 GB. 8B — близько 5 GB. 70B при 4-бітній квантизації — ~40 GB. Завантажуйте стільки моделей, скільки дозволяє місце. Плани починаються від 60 GB NVMe і сягають 1.5 TB; комбінуйте моделі на одному сервері як завгодно.

Як швидко відбувається розгортання?

Після підтвердження оплати ваш VPS запускається за 60 секунд. Із встановленим одним кліком Ollama середовище виконання підіймається ще за хвилину. Перше завантаження моделі займе більше часу (обмежено мережею), але наступні беруться з кешу на NVMe.

Do I get a dedicated IP?

Так, кожен VPS отримує виділений статичний IPv4 та IPv6. Звертайтесь до Ollama API через виділений IP, поставте перед ним реверс-проксі Caddy для HTTPS на реальному імені хоста — і готово. Плаваючі IP також доступні.

Чи є приховані платежі?

Ні. Вихідний трафік включено в місячний ліміт передачі даних. Знімки стану безкоштовні. IPv4 + IPv6 включені. Root-доступ включено. Єдині платні доповнення — Floating IP (2,50 $/міс.) і додаткові знімки понад безкоштовну квоту.

Чи є гарантія повернення коштів?

Так, 14 днів з моменту придбання, без зайвих запитань, повне повернення коштів. Подайте заявку через панель керування або напишіть на [email protected].

Готово, коли ви готові.
ollama run за 60 секунд.

Оберіть регіон, натисніть, завантажте модель. Ваш приватний LLM, ваш виділений IP.

Без кредитної картки · Повернення коштів протягом 14 днів · Скасування будь-коли