Скидка 50% на все тарифы, ограниченное время. От $2.48/mo

Ollama VPS Хостинг

Запускайте open-source
LLMs на вашем VPS.

Готовые к Ollama серверы VPS на базе актуального AMD EPYC и чистого NVMe.
Независимая компания с 2008 года. Llama, Mistral, Qwen, DeepSeek, Gemma, всё под вашим IP.

4.6· 713 отзывов на Trustpilot

От $2.48/mo · Скидка 50% · Без банковской карты

~ ssh root@ollama-lon-001подключено
root@ollama-lon-001:~# ollama pull llama3
извлечение манифеста… загрузка модели 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, или Virtual Private Server, — это виртуальный
вычислительная среда с собственной ОС и выделенными
ресурсами, размещёнными в облаке...
root@ollama-lon-001:~# _

Ollama VPS в двух словах

Cloudzy хостов Ollama-ready VPSes from 12 регионах в Северной Америке, Европе, на Ближнем Востоке и в Азии, начиная от $2.48 per month. Тарифы варьируются от 512 MB to 64 GB DDR5, всё на хранилище NVMe с 40 Gbps аплинками. Ollama устанавливается в один клик — загрузите Llama 3, Mistral, Qwen, DeepSeek, Gemma и запустите их за OpenAI-совместимым API. Servers provision in 60 секунд. Cloudzy работает независимо с 2008 и имеет оценку 4.6 / 5 by 713+ отзывов на Trustpilot.

Начальная цена
$2.48 / month
Развёртывание
60 секунд
Регионы
12 по всему миру
Uptime SLA
99.95%
Возврат средств
14 дней
Основана
2008

Почему разработчики выбирают Cloudzy

An LLM host разработчиков.

Четыре параметра, по которым нас чаще всего сравнивают. По каждому — всё сделано правильно.

Оптимизирован для инференса

AMD EPYC, хранилище только на NVMe, DDR5-память, аплинки 40 Gbps. Веса моделей загружаются с NVMe за секунды — никаких медленных дисков, задерживающих первый ответ.

Пробный период без риска

14-дневная гарантия возврата денег для каждого тарифа. Без лишних вопросов. Без платы за подключение. Отмена в любой момент через панель управления.

Доступность 99,95% SLA

Автоматический мониторинг в 12 регионах. SLA за последние 30 дней публично отображается на status.cloudzy.com — никаких манипуляций с данными.

Поддержка 24/7 с живыми людьми

Ответы в чате и по тикетам — как правило, менее 5 минут. Инженеры, а не операторы по скрипту. Медианное время решения — меньше часа.

Выберите модель

Открытые модели.
Одна команда — и готово.

Llama 3 — надёжный выбор, Mistral — для общего чата, Qwen — для мультиязычных задач, DeepSeek — для кода, Gemma — для лёгкой CPU-работы. Комбинируйте как угодно — всё на одном NVMe.

Загрузка собственного GGUF поддерживается на любом тарифе
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Компактные модели Microsoft

Сценарии использования

Почему разработчики выбирают
Ollama VPS от Cloudzy.

Приватный API для вашего приложения

OpenAI-совместимый эндпоинт на вашем выделенном IP — без лишних настроек. Создавайте чат-функции, суммаризаторы и агентов, не отправляя запросы пользователей сторонним провайдерам.

Background agents

Долгоживущие агенты, которые пачками обрабатывают письма, парсят сайты или автоматически тегируют тикеты, не вписываются в API с тарификацией по запросам. VPS с фиксированной оплатой — вписывается. Настройте cron, дёрните Ollama, ждите, повторяйте.

Code assistants

Запустите DeepSeek-Coder или Qwen-Coder за плагином Continue / Tabby в вашем редакторе. Быстрое автодополнение, без оплаты за каждое предложение, без отправки кода вендорам.

Любительский чат и RAG-демо

Загрузите модель, подключите Open WebUI или LibreChat, поделитесь ссылкой с друзьями. Весь стек на одном VPS — за цену нескольких чашек кофе в месяц.

LLM с учётом требований по защите данных

Чувствительные данные — юридические, медицинские, внутренние документы — остаются на вашем VPS. Контролируйте доступ через iptables и journald: ваша модель, ваш периметр.

Запустите собственные дообученные модели

Загрузите базовые веса, дообучите модель на GPU, экспортируйте GGUF обратно на CPU Ollama VPS для инференса. Платите меньше в будни, тратьтесь только на обучение.

60s
Развёртывание
40 Gbps
Канал связи
Только NVMe
Хранилище
12
Регионы
99.95%
Uptime SLA
14 дней
Возврат средств

Глобальная сеть

12 регионов. Четыре континента.
Выбери свой, загрузи модель.

Разворачивайте inference-хост рядом с пользователями. Медианная задержка P50 — менее 10 мс в Северной Америке и Европе.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Тарифы

Платите только за то, что используете. Всё просто.

Почасовая, ежемесячная или годовая оплата. Без платы за исходящий трафик. Без обязательств. Сейчас Скидка 50% все тарифы.

1 GB DDR5

Компактные модели CPU · 1B–3B

$3.48/мес
$6.95/mo−50%
Запустить сейчас
Возврат средств в течение 14 дней
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Выделенный IPv4 + IPv6
  • Один клик Ollama
2 GB DDR5

7B / 8B on CPU

$7.475/мес
$14.95/mo−50%
Запустить сейчас
Возврат средств в течение 14 дней
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Выделенный IPv4 + IPv6
  • Один клик Ollama

FAQ. Ollama VPS

Частые вопросы, прямые ответы.

Что такое Ollama VPS?

VPS с Ollama — это облачный сервер, настроенный для запуска Ollama, локальной среды выполнения LLM. Загружайте модели с открытым исходным кодом: Llama 3, Mistral, Qwen, DeepSeek, Gemma — и раздавайте их через собственный OpenAI-совместимый API. Создавайте чат-приложения, агентов и инструменты без отправки трафика сторонним провайдерам моделей.

Ollama предустановлен?

Ollama доступен как одноклик-установка из панели управления. Выберите шаблон Linux — бинарный файл сразу окажется в PATH, и `ollama pull llama3` заработает меньше чем за минуту. HTTP API по умолчанию слушает порт 11434; привяжите его к выделенному IP за обратным прокси.

Можно ли запускать LLMs на VPS, который поддерживает только CPU?

Да, для небольших моделей. Llama 3 8B и Mistral 7B работают на сервере с 16 GB CPU, Qwen 0.5B–3B и Gemma 2B уверенно запускаются на 4 GB. Пропускная способность зависит от размера модели и промпта; CPU медленнее, чем GPU, но вполне подходит для небольших API, побочных проектов и разработки.

Предлагаете ли вы планы GPU для более крупных моделей?

Да. Для моделей класса 70B или высоконагруженного инференса смотрите наши планы GPU (RTX 4090, RTX 5090, A100). RTX 4090 справляется с Llama 3 70B при квантизации; A100 на 80 ГБ тянет полноточные большие модели. Ссылки есть на странице тарифов.

Поддерживается ли OpenAI-совместимый API?

Да. Ollama предоставляет эндпоинт `/v1/chat/completions`, полностью совместимый с клиентом OpenAI. Укажите в вашем приложении адрес `http://your-vps:11434/v1` и смените название модели. Тот же SDK, никакого рефакторинга.

Сколько места на диске занимает модель?

Зависит от модели. 7B-модель с 4-битным квантованием занимает около 4 GB, 8B — около 5 GB, 70B при 4-битном квантовании — примерно 40 GB. Загружайте столько моделей, сколько позволяет место. Тарифы начинаются от 60 GB NVMe и доходят до 1,5 TB — комбинируйте любые модели на одном сервере.

Как быстро происходит провижининг?

Как только оплата подтверждена, ваш VPS запускается за 60 секунд. С установкой Ollama в один клик среда выполнения поднимается ещё за минуту. Первая загрузка модели занимает больше времени (ограничение сети), но последующие берутся из кэша на NVMe.

Получу ли я выделенный IP?

Да, каждый VPS поставляется с выделенным статическим IPv4 и IPv6. Подключайтесь к Ollama API через выделенный IP, поставьте перед ним обратный прокси Caddy для HTTPS на реальном хостнейме — и готово. Плавающие IP также доступны.

Есть ли скрытые платежи?

Нет. Исходящий трафик включён в ежемесячный объём передачи данных. Снимки — бесплатны. IPv4 + IPv6 включены. Root-доступ включён. Платные дополнения — только Floating IP ($2,50/мес.) и дополнительные снимки сверх бесплатной квоты.

Есть ли гарантия возврата денег?

Да, в течение 14 дней с момента покупки, без вопросов, полный возврат средств. Оформите через панель управления или напишите на [email protected].

Готовы начать?
ollama run — за 60 секунд.

Выберите регион, нажмите кнопку, загрузите модель. Ваш приватный LLM, ваш выделенный IP.

Без банковской карты · Гарантия возврата денег в течение 14 дней · Отмена в любой момент