скидка 50% все планы, ограниченное время. Начиная от $2.48/mo

AI VPS-хостинг

рабочие нагрузки ИИ,
выберите свою форму.

CPU с большим объемом RAM для вывода/RAG или GPU класса NVIDIA для обучения, та же панель VPS.
Независимое облако с 2008 года. От $2,48/мес. · root SSH за 60 секунд.

4.6 · 706 reviews on Trustpilot

ЦП от $2.48/mo · Планы GPU по ценообразование · 14-дневный возврат денег

~ ssh root@ai-nyc-001 подключен
root@ai-nyc-001:~# завиток -fsSL https://ollama.com/install.sh | ш
Установка среды выполнения Ollama... завершено
root@ai-nyc-001:~# оллама запустить llama3.1:8b-instruct-q4
получение манифеста · загрузка 4,7 ГБ в NVMe
модель готова · начинается вывод ЦП
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Привет! Чем я могу вам помочь сегодня?"}
root@ai-nyc-001:~# _

AI VPS с первого взгляда

Cloudzy предлагает хостинг AI VPS в двух формах: с большим объемом RAM CPU планирует использовать квантовый вывод LLM, RAG и конвейеры, а также NVIDIA-класс Планы графического процессора для обучения и обслуживания крупных моделей. Планы выполняются AMD EPYC, Хранилище NVMe, и 40 Gbps аплинки в 12 регионов. CPU запускается в $2,48 в месяц; подготовка занимает 60 секунд; образы CUDA предварительно настроены на планах GPU. Cloudzy работает независимо с 2008, обслуживает 122 000+ разработчиков, и оценён на 4.6 / 5 by 706+ reviewers на Trustpilot.

CPU запускается в
$2,48 / мес.
Типы графических процессоров
RTX · Профи
Обеспечение
60 секунд
Регионы
12 по всему миру
SLA по аптайму
99.95%
Возврат денег
14 дней

Почему разработчики ИИ выбирают Cloudzy

Облако, которое корабли ИИ.

Четыре причины, по которым ваша рабочая нагрузка по ИИ должна быть здесь.

AMD EPYC + NVMe

Последняя версия EPYC для вывода данных о процессоре, NVMe для быстрой загрузки моделей. Выделенные графические процессоры через сквозной порт PCI в планах графических процессоров.

Возврат в течение 14 дней

Запустите тест на реальную задержку вывода на Cloudzy. Если он не соответствует вашему SLO, верните деньги в течение 14 дней.

99,95% времени безотказной работы

Для производственных API-интерфейсов искусственного интеллекта требуется хост, который не перезагружается во время пиковой нагрузки. SLA за последние 30 дней общедоступно отслеживается на сайте status.cloudzy.com.

Инженеры в чате

Застряли на версиях CUDA, ошибках NCCL или настройке vLLM? Инженеры с опытом работы в сфере искусственного интеллекта — минуты, а не часы.

Стек ИИ

Принесите любую структуру.
Оно бежит.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang — все работают без проблем. предварительно запеченный В изображениях CUDA на GPU планируется пропустить танец драйверов. Планы CPU обрабатывают квантованный вывод и дешевое внедрение рабочих.

Docker + nvidia-container-toolkit готов для планов на использование графических процессоров
PyTorch
ЦП и GPU
ТензорФлоу
ЦП и GPU
vLLM
Обслуживание графического процессора LLM
Оллама
LLM CPU + GPU
Обнимающее лицо
Transformers · Diffusers
pgvector
Магазин векторов RAG
Кдрант
Вектор БД
Лангчейн
Агентская структура

Сценарии использования

На чем работают команды ИИ
Cloudzy.

API вывода LLM

Обслуживайте квантованные LLM класса 7B–70B за собственной конечной точкой, совместимой с OpenAI. vLLM или TGI на графическом процессоре, llama.cpp/Ollama на большом процессоре. Выставляйте счета своим клиентам по токенам.

RAG-бэкэнды

Postgres + pgvector или Qdrant на CPU VPS, дополнительный блок графического процессора для встраивания/генерации. NVMe означает, что векторный поиск остается быстрым.

Время выполнения агента

Долго работающие агенты LangChain или LlamaIndex, которые работают с API OpenAI/Anthropic и вашими собственными данными. Статический IP-адрес обеспечивает стабильность вызова инструментов.

Генерация изображений/видео

Stable Diffusion, SDXL, ComfyUI, видеомодели на графических процессорах класса RTX. NVMe позволяет менять модели за секунды, а не минуты.

Тонкая настройка и обучение

LoRA/QLoRA обеспечивает точную настройку полнопараметрического обучения класса RTX на графических процессорах класса центров обработки данных. Готовые CUDA, NCCL, PyTorch.

Встраивание рабочих

Запустите преобразователь предложений на процессоре VPS объемом 16–32 ГБ и встраивайте миллионы документов, не платя за вызов тарифы SaaS.

60s
Обеспечение
40 Gbps
восходящая линия связи
только NVMe
Хранилище
12
Регионы
99.95%
SLA по аптайму
14 дней
Возврат денег

Глобальная сеть

12 регионов. Четыре континента.
Задержка вывода, решено.

Разместите свой AI API рядом со своими клиентами. Соедините шлюз ЦП в одном регионе с блоком графического процессора в другом.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Планы ЦП по искусственному интеллекту

Квантовые LLM · RAG · Вложения. Процессора достаточно.

Многие рабочие нагрузки ИИ привязаны к процессору. Почасовая оплата · Скидка 50 % на все планы · Планы графического процессора указаны отдельно на /цены.

12 GB DDR5

Серверная часть RAG · векторная БД · встраивания

$34.98 /мес.
$69.95/mo −50%
Развернуть сейчас
Возврат в течение 14 дней
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Оллама / vLLM ЦП
  • Root SSH · KVM
16 GB DDR5

Вывод о ЦП среднего размера · Шлюз API

$49.98 /мес.
$99.95/mo −50%
Развернуть сейчас
Возврат в течение 14 дней
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Оллама / vLLM ЦП
  • Root SSH · KVM

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ. AI VPS

Частые вопросы, прямые ответы.

Что такое AI VPS?

AI VPS — это облачный сервер Linux, рассчитанный и настроенный для рабочих нагрузок ИИ, с большим объемом RAM и ядрами EPYC для вывода CPU и RAG или GPU класса NVIDIA для обучения и обслуживания больших моделей. Вы подключаетесь по SSH, устанавливаете свой стек и запускаете. Один и тот же VPS, разные формы для разных задач.

Нужен ли мне GPU или CPU будет работать?

Зависит от модели. Квантованные LLM класса 7B (int4/int8 через llama.cpp или Ollama) эффективно работают на процессоре с объемом памяти 16–32 ГБ. Модели внедрения, векторные базы данных (Qdrant, Weaviate, pgvector) и конвейеры RAG в основном связаны с ЦП. Для обучения, обслуживания более крупных моделей или чего-либо еще, требующего высокой пропускной способности, вам понадобится план графического процессора.

Могу ли я запустить API вывода за балансировщиком нагрузки?

Да. Запустите vLLM, TGI или свой собственный сервис FastAPI на блоке графического процессора, поместите небольшой ЦП VPS впереди в качестве шлюза API и ограничителя скорости. Оба используют частную сеть в одном регионе. 40 Гбит/с означает, что шлюз никогда не станет узким местом.

Могу ли я разместить серверную часть RAG?

Да, и это одна из самых распространенных форм. VPS CPU объемом 16–32 ГБ работает под управлением Postgres + pgvector или Qdrant по дешевке. Вы обращаетесь к VPS GPU или размещенному LLM для генерации. NVMe делает векторные запросы быстрыми, а EPYC выполняет вычисления по внедрению при пакетной обработке.

Какие платформы искусственного интеллекта поддерживаются?

Все они. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (на соответствующем оборудовании), Hugging Face Transformers, установка через conda, pip или Docker. Предварительно подготовленные образы CUDA для планов GPU, полный root для каждого плана.

Являются ли графические процессоры общими?

Нет. В планах GPU используется сквозной порт PCI, забронированный вами GPU предназначен для вашей виртуальной машины, полной памяти и полной тактовой частоты. CUDA, NVENC, NCCL ведут себя так же, как и в чистом металлическом корпусе. Класс RTX для экономичного вывода, класс центра обработки данных для высококачественного обучения.

Сколько видеопамяти мне нужно?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Есть ли гарантия возврата денег?

Да, 14 дней с момента покупки, полный возврат средств, никаких вопросов. Запустите настоящий тест на задержку вывода, настоящий тест RAG и решите, подходит ли Cloudzy, прежде чем вы возьмете на себя обязательство на год.

Насколько быстро происходит развёртывание?

После подтверждения оплаты ваш AI VPS заработает через 60 секунд. CPU или GPU. Предварительно подготовленные образы CUDA в планах GPU означают, что nvidia-smi возвращается в течение нескольких секунд. Планы CPU поставляются с Ubuntu LTS или Debian, установите стек AI через conda или pip за несколько минут.

Могу ли я использовать это в производстве?

Да. SLA 99,95 % времени безотказной работы, почасовая оплата, отсутствие обязательств, выделенные IP-адреса и возможность оперативного масштабирования ОЗУ/виртуального ЦП/хранилища без перестройки. Многие из наших клиентов используют искусственный интеллект и API-интерфейсы RAG в производстве Cloudzy.

Готовы, когда вы готовы.
AI VPS за 60 секунд.

Выберите конфигурацию, подходящую для вашей нагрузки. CPU для инференса/RAG; GPU для обучения. Та же панель.

Без кредитной карты · возврат денег в течение 14 дней · отмена в любой момент