Перейти к основному содержанию
Скидка 50% все планы, ограниченное время. Начиная от $2.48/mo

Ollama VPS Хостинг

Запускайте open-source
LLMs на вашем VPS.

Готовые к Ollama серверы VPS на базе актуального AMD EPYC и чистого NVMe.
Независимая компания с 2008 года. Llama, Mistral, Qwen, DeepSeek, Gemma, всё под вашим IP.

4.7 · 755 reviews on Trustpilot

Начиная от $2.48/mo · Скидка 50% · Без банковской карты

~ ssh root@ollama-lon-001 подключено
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS в двух словах

Cloudzy хостов Ollamaготовые VPS от 13 регионов по Северной Америке, Европе, Ближнему Востоку и Азии, начиная от $2.48 per month. Планы от 512 MB to 64 GB DDR5, всё на Хранилище NVMe с 40 Gbps каналах. Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma и запустите их за OpenAI-совместимым APIСерверы развёртываются в 60 секунд. Cloudzy has operated independently since 2008 и оценён на 4.7 / 5 by 755+ reviewers на Trustpilot.

Начальная цена
$2.48 / month
Развёртывание
60 секунд
Регионы
13 по всему миру
SLA по аптайму
99.95%
Возврат средств
14 дней
Основана
2008

Почему разработчики выбирают Cloudzy

Хост LLM разработчиков.

Четыре вещи, по которым нас действительно сравнивают, сделаны как надо.

Оптимизирован для инференса

AMD EPYC, хранилище только на NVMe, DDR5-память, аплинки 40 Gbps. Веса моделей загружаются с NVMe за секунды — никаких медленных дисков, задерживающих первый ответ.

Пробный период без риска

Гарантия возврата средств в течение 14 дней на каждом тарифе. Без лишних вопросов. Без платы за настройку. Отмена через панель в любой момент.

SLA по аптайму 99,95%

Автоматический мониторинг в 13 регионах. SLA за последние 30 дней публично отслеживается на status.cloudzy.com, без прикрытий через PR.

Поддержка людей 24/7

Ответы в чате и тикетах обычно менее 5 минут. Инженеры, а не операторы по скрипту. Медианное время решения менее 1 часа.

Выберите модель

Открытые модели.
Одна команда — и готово.

Llama 3 — надёжный выбор, Mistral — для общего чата, Qwen — для мультиязычных задач, DeepSeek — для кода, Gemma — для лёгкой CPU-работы. Комбинируйте как угодно — всё на одном NVMe.

Загрузка собственного GGUF поддерживается на любом тарифе
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Компактные модели Microsoft

Сценарии использования

Почему разработчики выбирают
Ollama VPS от Cloudzy.

Приватный API для вашего приложения

OpenAI-совместимый эндпоинт на вашем выделенном IP — без лишних настроек. Создавайте чат-функции, суммаризаторы и агентов, не отправляя запросы пользователей сторонним провайдерам.

Фоновые агенты

Долгоживущие агенты, которые пачками обрабатывают письма, парсят сайты или автоматически тегируют тикеты, не вписываются в API с тарификацией по запросам. VPS с фиксированной оплатой — вписывается. Настройте cron, дёрните Ollama, ждите, повторяйте.

Помощники кода

Запустите DeepSeek-Coder или Qwen-Coder за плагином Continue / Tabby в вашем редакторе. Быстрое автодополнение, без оплаты за каждое предложение, без отправки кода вендорам.

Любительский чат и RAG-демо

Загрузите модель, подключите Open WebUI или LibreChat, поделитесь ссылкой с друзьями. Весь стек на одном VPS — за цену нескольких чашек кофе в месяц.

LLM с учётом требований по защите данных

Чувствительные данные — юридические, медицинские, внутренние документы — остаются на вашем VPS. Контролируйте доступ через iptables и journald: ваша модель, ваш периметр.

Запустите собственные дообученные модели

Загрузите базовые веса, дообучите модель на GPU, экспортируйте GGUF обратно на CPU Ollama VPS для инференса. Платите меньше в будни, тратьтесь только на обучение.

60s
Развёртывание
40 Gbps
Канал связи
Только NVMe
Хранилище
13
Регионы
99.95%
SLA по аптайму
14 days
Возврат средств

Глобальная сеть

13 регионов. Четыре континента.
Выбери свой, загрузи модель.

Разворачивайте inference-хост рядом с пользователями. Медианная задержка P50 — менее 10 мс в Северной Америке и Европе.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Тарифы

Платите только за использованное. Вот и всё.

Почасовая, помесячная или годовая. Без платы за исходящий трафик. Без обязательств. Сейчас Скидка 50% все планы.

1 GB DDR5

Компактные модели CPU · 1B–3B

$3.48 /mo
$6.95/mo −50%
Развернуть сейчас
Возврат в течение 14 дней
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Выделенные IPv4 + IPv6
  • Один клик Ollama
2 GB DDR5

7B / 8B на CPU

$7.475 /mo
$14.95/mo −50%
Развернуть сейчас
Возврат в течение 14 дней
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Выделенные IPv4 + IPv6
  • Один клик Ollama

Часто задаваемые вопросы. Ollama VPS

Частые вопросы, прямые ответы.

Что такое Ollama VPS?

VPS с Ollama — это облачный сервер, настроенный для запуска Ollama, локальной среды выполнения LLM. Загружайте модели с открытым исходным кодом: Llama 3, Mistral, Qwen, DeepSeek, Gemma — и раздавайте их через собственный OpenAI-совместимый API. Создавайте чат-приложения, агентов и инструменты без отправки трафика сторонним провайдерам моделей.

Ollama предустановлен?

Ollama доступен как одноклик-установка из панели управления. Выберите шаблон Linux — бинарный файл сразу окажется в PATH, и `ollama pull llama3` заработает меньше чем за минуту. HTTP API по умолчанию слушает порт 11434; привяжите его к выделенному IP за обратным прокси.

Можно ли запускать LLMs на VPS, который поддерживает только CPU?

Да, для небольших моделей. Llama 3 8B и Mistral 7B работают на сервере с 16 GB CPU, Qwen 0.5B–3B и Gemma 2B уверенно запускаются на 4 GB. Пропускная способность зависит от размера модели и промпта; CPU медленнее, чем GPU, но вполне подходит для небольших API, побочных проектов и разработки.

Предлагаете ли вы планы GPU для более крупных моделей?

Да. Для моделей класса 70B или высоконагруженного инференса смотрите наши планы GPU (RTX 4090, RTX 5090, A100). RTX 4090 справляется с Llama 3 70B при квантизации; A100 на 80 ГБ тянет полноточные большие модели. Ссылки есть на странице тарифов.

Поддерживается ли OpenAI-совместимый API?

Да. Ollama предоставляет эндпоинт `/v1/chat/completions`, полностью совместимый с клиентом OpenAI. Укажите в вашем приложении адрес `http://your-vps:11434/v1` и смените название модели. Тот же SDK, никакого рефакторинга.

Сколько места на диске занимает модель?

Зависит от модели. 7B-модель с 4-битным квантованием занимает около 4 GB, 8B — около 5 GB, 70B при 4-битном квантовании — примерно 40 GB. Загружайте столько моделей, сколько позволяет место. Тарифы начинаются от 60 GB NVMe и доходят до 1,5 TB — комбинируйте любые модели на одном сервере.

Насколько быстро происходит развёртывание?

Как только оплата подтверждена, ваш VPS запускается за 60 секунд. С установкой Ollama в один клик среда выполнения поднимается ещё за минуту. Первая загрузка модели занимает больше времени (ограничение сети), но последующие берутся из кэша на NVMe.

Получу ли я выделенный IP?

Да, каждый VPS поставляется с выделенным статическим IPv4 и IPv6. Подключайтесь к Ollama API через выделенный IP, поставьте перед ним обратный прокси Caddy для HTTPS на реальном хостнейме — и готово. Плавающие IP также доступны.

Есть ли скрытые платежи?

Нет. Исходящий трафик входит в ежемесячную квоту. Снапшоты бесплатны. IPv4 + IPv6 включены. Доступ root включён. Платные дополнения только Floating IP ($2,50/мес.) и дополнительные снапшоты сверх бесплатной квоты.

Есть ли гарантия возврата денег?

Да, 14 дней с момента покупки, без вопросов, полный возврат. Запросите из панели или напишите на [email protected].

Готовы, когда вы готовы.
ollama run, за 60 секунд.

Выберите регион, нажмите кнопку, загрузите модель. Ваш приватный LLM, ваш выделенный IP.

Без кредитной карты · возврат денег в течение 14 дней · отмена в любой момент