Скидка 50% на все тарифы, ограниченное время. От $2.48/mo

Хостинг AI VPS

Задачи AI,
выбери свой формат.

Мощные RAM CPU для инференса и RAG или NVIDIA-класса GPU для обучения — всё в одной панели VPS.
Независимое облако с 2008 года. От $2.48/мес · root SSH за 60 секунд.

4.6 · 728 reviews on Trustpilot

CPU от $2.48/mo · Планы GPU на цены · возврат средств в течение 14 дней

~ ssh root@ai-nyc-001 подключено
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Установка среды выполнения Ollama... готово
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
загрузка манифеста · скачивание 4.7 GB на NVMe
модель готова · запуск инференса CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
Привет! Чем я могу вам помочь сегодня?
root@ai-nyc-001:~# _

AI VPS: обзор

Cloudzy предлагает хостинг AI VPS двух видов: планы CPU с высоким RAM для квантованного инференса LLM, RAG и пайплайнов, а также NVIDIA-класс планы GPU для обучения моделей и обслуживания крупных моделей. Планы работают на AMD EPYC, хранилище NVMe, и 40 Gbps аплинки в 12 регионах. CPU начинается от $2.48 per month; развёртывание занимает 60 секунд; CUDA-образы предустановлены на планах GPU. Cloudzy работает независимо с 2008, обслуживает 122 000+ разработчиков, рейтинг 4.6 / 5 by 728+ reviewers на Trustpilot.

CPU начинается от
$2.48 / month
типы GPU
RTX · Pro
Развёртывание
60 секунд
Регионы
12 по всему миру
Время безотказной работы SLA
99.95%
Возврат средств
14 дней

Почему AI-разработчики выбирают Cloudzy

Облако, которое запускает AI.

Четыре причины доверить ваши AI-задачи нам.

AMD EPYC + NVMe

Новейшие EPYC для инференса CPU, NVMe для быстрой загрузки моделей. Выделенные GPU через PCI passthrough на планах GPU.

Возврат средств в течение 14 дней

Запустите реальный тест задержки инференса на Cloudzy. Если результат не вписывается в ваш SLO — возврат в течение 14 дней.

Аптайм 99,95%

AI-нагрузки в продакшене требуют хоста, который не уходит на перезагрузку в пиковое время. SLA за последние 30 дней публично отслеживается на status.cloudzy.com.

Инженеры в чате

Проблемы с версиями CUDA, ошибками NCCL или настройкой vLLM? Инженеры с опытом в AI-задачах ответят за минуты, а не часы.

AI-стек

Используйте любой фреймворк.
Просто работает.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang — всё работает без лишних настроек. Готовые образы CUDA на планах GPU избавляют от возни с драйверами. Планы CPU справляются с квантизированным инференсом и embedding-воркерами по доступной цене.

Docker + nvidia-container-toolkit готовы к работе на планах GPU
PyTorch
ЦПУ и ГПУ
TensorFlow
ЦПУ и ГПУ
vLLM
Сервинг моделей GPU LLM
Ollama
CPU + GPU LLM
Hugging Face
Transformers · Diffusers
pgvector
Хранилище векторов RAG
Qdrant
Векторная БД
LangChain
Фреймворк агента

Сценарии использования

На чём работают AI-команды
Cloudzy.

Инференс LLM через API

Запускайте квантизованные модели класса 7B–70B за вашим собственным OpenAI-совместимым эндпоинтом. vLLM или TGI на GPU, llama.cpp / Ollama на CPU. Выставляйте клиентам счёт по токенам.

RAG-бэкенды

Postgres + pgvector или Qdrant на CPU VPS, отдельный GPU-сервер для эмбеддингов и генерации — по желанию. NVMe обеспечивает быстрый поиск по векторам.

Среды выполнения агента

Долгоживущие агенты LangChain или LlamaIndex, которые обращаются к API OpenAI/Anthropic и вашим собственным данным. Статический IP стабилизирует вызовы инструментов.

Генерация изображений и видео

Stable Diffusion, SDXL, ComfyUI, видеомодели на GPU с GPU класса RTX. NVMe позволяет менять модели за секунды, а не минуты.

Дообучение и тренировка моделей

LoRA / QLoRA fine-tuning на GPU класса RTX, полнопараметрное обучение на GPU класса datacenter. CUDA, NCCL и PyTorch предустановлены.

Embedding-воркеры

Запустите воркер sentence-transformers на CPU VPS с 16–32 GB и создавайте эмбеддинги для миллионов документов без поштучной тарификации SaaS.

60s
Развёртывание
40 Gbps
Канал связи
Только NVMe
Хранилище
12
Регионы
99.95%
Время безотказной работы SLA
14 дней
Возврат средств

Глобальная сеть

12 регионов. Четыре континента.
Задержка инференса — решена.

Разместите ваш AI API ближе к клиентам. Объедините CPU-шлюз в одном регионе с GPU-сервером в другом.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI-планы

Квантизованные LLM · RAG · Эмбеддинги. CPU — этого достаточно.

Многие AI-задачи ограничены ресурсами CPU. Почасовая тарификация · скидка 50% на все планы · планы GPU перечислены отдельно на /pricing.

12 GB DDR5

RAG backend · векторная БД · embeddings

$34.98 /мес
$69.95/mo −50 %
Запустить сейчас
Возврат средств в течение 14 дней
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Корневой SSH · KVM
16 GB DDR5

Среднеразмерный вывод CPU · шлюз API

$49.98 /мес
$99.95/mo −50 %
Запустить сейчас
Возврат средств в течение 14 дней
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Корневой SSH · KVM

Часто задаваемые вопросы. AI VPS

Частые вопросы, прямые ответы.

Что такое AI VPS?

AI VPS — это Linux облачный сервер, настроенный под задачи AI: мощные RAM и EPYC-ядра для инференса CPU и RAG, или GPU класса NVIDIA для обучения и деплоя крупных моделей. Подключаетесь, устанавливаете свой стек — и работаете. Один и тот же VPS, разные конфигурации под разные задачи.

Мне нужен GPU, или хватит CPU?

Зависит от модели. Quantized модели класса 7B (int4 / int8 через llama.cpp или Ollama) нормально работают на плане CPU с 16–32 GB RAM. Embedding-модели, векторные базы данных (Qdrant, Weaviate, pgvector) и RAG-пайплайны в основном нагружают CPU. Для обучения, деплоя крупных моделей или задач с высоким throughput нужен план с GPU.

Можно ли запустить inference API за балансировщиком нагрузки?

Да. Запустите vLLM, TGI или собственный FastAPI-сервис на GPU-машине, а перед ней поставьте небольшой CPU VPS в роли API-шлюза и rate limiter. Оба узла находятся в одной частной сети в одном регионе. При 40 Gbps шлюз никогда не станет узким местом.

Можно ли хостить RAG backend?

Да, и это одна из самых распространённых конфигураций. CPU VPS с 16–32 GB RAM без лишних затрат поднимает Postgres + pgvector или Qdrant, а генерацию вы отдаёте на GPU VPS или хостинговую LLM. NVMe обеспечивает быстрые векторные запросы, EPYC берёт на себя вычисление embedding-ов при batch-обработке.

Какие AI-фреймворки поддерживаются?

Все. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (на совместимом железе), Hugging Face Transformers — устанавливайте через conda, pip или Docker. На планах с GPU доступны готовые CUDA-образы, на каждом плане полный root-доступ.

GPU общие?

Нет. В планах с GPU используется PCI passthrough: GPU, который вы заказываете, полностью выделен вашей VM — со всей памятью и на полных частотах. CUDA, NVENC, NCCL работают точно так же, как на bare-metal. RTX-класс — для экономичного инференса, datacenter-класс — для серьёзного обучения.

Сколько VRAM мне нужно?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Есть ли гарантия возврата денег?

14 дней с момента покупки, полный возврат средств, без вопросов. Прогоните реальный тест latency для инференса и реальный RAG-бенчмарк — и убедитесь, что Cloudzy вам подходит, прежде чем оплачивать год.

Как быстро происходит провижининг?

После подтверждения оплаты ваш AI VPS будет готов через 60 секунд. CPU или GPU. Готовые CUDA-образы на планах с GPU — `nvidia-smi` отвечает в течение нескольких секунд. Планы CPU поставляются с Ubuntu LTS или Debian — установите свой AI-стек через conda или pip за несколько минут.

Можно ли использовать это в продакшне?

Да. Гарантия доступности 99,95% SLA, почасовая тарификация, без долгосрочных обязательств, выделенные IP-адреса и возможность масштабировать RAM/vCPU/хранилище в реальном времени без пересборки. Многие наши клиенты запускают AI-инференс и RAG APIs в продакшне прямо с Cloudzy.

Готовы начать?
AI VPS за 60 секунд.

Выберите конфигурацию под вашу задачу. CPU для инференса и RAG; GPU для обучения моделей. Единая панель управления.

Без банковской карты · Гарантия возврата денег в течение 14 дней · Отмена в любой момент