Знижка 50%. усі плани, обмежений час. Від $2.48/mo

AI VPS хостинг

навантаження AI,
оберіть свою форму.

High-RAM CPU для висновків / RAG або NVIDIA-класу GPU для навчання, та сама панель VPS.
Незалежна хмара з 2008 року. Від $2,48/міс. · root SSH за 60 секунд.

4.6 · 706 reviews on Trustpilot

ЦП від $2.48/mo · Плани GPU ціноутворення · 14-денне повернення грошей

~ ssh root@ai-nyc-001 підключений
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | ш
Встановлення середовища виконання Ollama... завершено
root@ai-nyc-001:~# ollama запустити llama3.1:8b-instruct-q4
витягування маніфесту · завантаження 4,7 ГБ на NVMe
модель готова · Початок визначення ЦП
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Привіт! Чим я можу вам допомогти?"}
root@ai-nyc-001:~# _

Короткий огляд AI VPS

Cloudzy пропонує AI VPS-хостинг у двох формах з високим обсягом оперативної пам’яті Плани CPU для квантованого висновку LLM, RAG і конвеєрів, а також NVIDIA-клас Плани GPU для навчання та обслуговування великої моделі. Плани виконуються AMD EPYC, Сховище NVMe, і 40 Gbps аплінки у 12 регіонів. ЦП починається з $2,48 на місяць; забезпечення бере 60 секунд; Зображення CUDA попередньо запікаються на планах GPU. Відтоді Cloudzy працює незалежно 2008, обслуговує 122 000+ розробників, та має рейтинг 4.6 / 5 by 706+ reviewers на Trustpilot.

ЦП починається з
$2,48 / місяць
Типи GPU
RTX · Pro
Забезпечення
60 секунд
Регіони
12 по всьому світу
SLA аптайму
99.95%
Повернення грошей
14 днів

Чому розробники ШІ обирають Cloudzy

Хмара, що кораблі А.І.

Чотири причини, чому ваше робоче навантаження AI належить сюди.

AMD EPYC + NVMe

Найновіший EPYC для визначення ЦП, NVMe для швидкого завантаження моделі. Виділені графічні процесори через PCI passthrough у планах GPU.

Повернення коштів за 14 днів

Запустіть свій справжній тест затримки логічного висновку на Cloudzy. Якщо він не відповідає вашому SLO, відшкодуйте протягом 14 днів.

Безвідмовна робота 99,95%.

Виробничим API AI потрібен хост, який не перезавантажується під час піку. Останні 30 днів SLA відстежуються публічно на status.cloudzy.com.

Інженери в чаті

Застрягли на версіях CUDA, помилках NCCL або налаштуванні vLLM? Інженери з досвідом роботи зі штучним інтелектом, хвилини, а не години.

Стек AI

Принесіть будь-який каркас.
Він біжить.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, усі працюють чисто. Попередньо запечені Зображення CUDA на планах GPU пропускають танець водія. Плани CPU обробляють квантований висновок і влаштування працівників недорого.

Docker + nvidia-container-toolkit готові для планів GPU
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
Обслуговування GPU LLM
Оллама
CPU + GPU LLM
Обіймати обличчя
Трансформатори · Дифузори
pgvector
Векторний магазин RAG
Qdrant
Векторна БД
LangChain
Структура агента

Сценарії використання

На чому працюють команди ШІ
Cloudzy.

API висновків LLM

Обслуговуйте квантовані LLM класу 7B–70B за вашою власною кінцевою точкою, сумісною з OpenAI. vLLM або TGI на графічному процесорі, llama.cpp / Ollama на великому процесорі. Виставляйте рахунки своїм клієнтам за допомогою жетонів.

Сервери RAG

Postgres + pgvector або Qdrant на CPU VPS, додатковий блок GPU для вбудовування/генерації. NVMe означає, що векторний пошук залишається швидким.

Час роботи агента

Довгопрацюючі агенти LangChain або LlamaIndex, які вражають API OpenAI/Anthropic і ваші власні дані. Статичний IP підтримує стабільність виклику інструментів.

Генерація зображень / відео

Stable Diffusion, SDXL, ComfyUI, моделі відео на графічних процесорах класу RTX. NVMe дозволяє змінювати моделі за секунди, а не за хвилини.

Тонке налаштування та навчання

LoRA / QLoRA точно налаштовує на RTX-класі, повне навчання параметрів на GPU класу центру обробки даних. Запечені CUDA, NCCL, PyTorch.

Вбудовування працівників

Запустіть програму-перетворювач речень на 16–32 ГБ CPU VPS, щоб вставляти мільйони документів, не сплачуючи тарифів SaaS за дзвінок.

60s
Забезпечення
40 Gbps
Uplink
Лише NVMe
Зберігання
12
Регіони
99.95%
SLA аптайму
14 днів
Повернення грошей

Глобальна мережа

12 регіонів. Чотири континенти.
Затримка висновку, вирішено.

Розмістіть свій AI API поблизу своїх клієнтів. З’єднайте шлюз центрального процесора в одному регіоні з блоком графічного процесора в іншому.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Плани CPU AI

Квантовані LLM · RAG · Вбудовування. ЦП достатньо.

Багато робочих навантажень штучного інтелекту пов’язані з ЦП. Погодинна оплата · Знижка 50% на всі плани · Плани графічного процесора вказані окремо на / ціноутворення.

12 GB DDR5

Сервер RAG · векторна база даних · вбудовування

$34.98 / міс
$69.95/mo −50%
Розгорнути зараз
Повернення коштів за 14 днів
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • ЦП Ollama / vLLM
  • Root SSH · KVM
16 GB DDR5

Висновок CPU середнього розміру · Шлюз API

$49.98 / міс
$99.95/mo −50%
Розгорнути зараз
Повернення коштів за 14 днів
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • ЦП Ollama / vLLM
  • Root SSH · KVM

FAQ. AI VPS

Поширені запитання, прямі відповіді.

Що таке AI VPS?

AI VPS — це хмарний сервер Linux розміру та конфігурації для робочих навантажень AI, великої оперативної пам’яті та ядер EPYC для висновків CPU і RAG або GPU класу NVIDIA для навчання та обслуговування великих моделей. Підключіться до SSH, установіть свій стек і запустіть. Той самий VPS, різні форми для різних робіт.

Чи потрібен мені графічний процесор, чи процесор працюватиме?

Залежить від моделі. Квантовані LLM класу 7B (int4 / int8 через llama.cpp або Ollama) ефективно працюють на плані ЦП 16–32 ГБ. Моделі вбудовування, векторні бази даних (Qdrant, Weaviate, pgvector) і конвеєри RAG здебільшого пов’язані з ЦП. Для навчання, обслуговування більшої моделі або будь-чого, що вимагає високої пропускної здатності, вам потрібен план GPU.

Чи можу я запустити API висновків за балансувальником навантаження?

так Запустіть vLLM, TGI або власну службу FastAPI на графічному процесорі, розмістіть невеликий CPU VPS як шлюз API та обмежувач швидкості. Обидва мають спільну приватну мережу в одному регіоні. 40 Гбіт/с означає, що шлюз ніколи не буде вузьким місцем.

Чи можу я розмістити сервер RAG?

Так, і це одна з найпоширеніших форм. CPU VPS об’ємом 16–32 ГБ дешево запускає Postgres + pgvector або Qdrant, для генерації ви звертаєтеся до GPU VPS або розміщеного LLM. NVMe робить векторні запити швидкими, EPYC обробляє вбудовані обчислення під час пакетного виконання.

Які структури AI підтримуються?

Всі вони. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (на відповідному обладнанні), Hugging Face Transformers, установіть через conda, pip або Docker. Попередньо підготовлені зображення CUDA на планах GPU, повний root на кожному плані.

Графічні процесори є спільними?

У планах GPU використовується передача PCI, GPU, який ви бронюєте, призначений для вашої віртуальної машини, повної пам’яті та повної тактової частоти. CUDA, NVENC, NCCL поводяться так само, як і на голій металевій коробці. Клас RTX для економічного висновку, клас центру обробки даних для висококласного навчання.

Скільки VRAM мені потрібно?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Чи є гарантія повернення коштів?

Так, 14 днів після покупки, повне повернення коштів, без запитань. Запустіть свій справжній тест затримки логічного висновку, ваш реальний тест RAG, і вирішіть, чи підходить Cloudzy, перш ніж взяти на себе рік.

Як швидко відбувається розгортання?

Після підтвердження платежу ваш AI VPS запрацює через 60 секунд. CPU або GPU. Попередньо підготовлені образи CUDA на планах GPU означають, що «nvidia-smi» повертається за кілька секунд. Плани CPU постачаються з Ubuntu LTS або Debian, інсталюйте стек AI через conda або pip за кілька хвилин.

Чи можу я використовувати це у виробництві?

так Угода про рівень обслуговування на 99,95% безперебійної роботи, погодинна оплата, відсутність зобов’язань, виділені IP-адреси та можливість масштабувати RAM/vCPU/сховище в реальному часі без переналаштування. Багато наших клієнтів використовують AI inference та RAG API у виробництві від Cloudzy.

Готові, коли ви готові.
AI VPS за 60 секунд.

Виберіть форму, яка потрібна для вашого робочого навантаження. ЦП для висновків / RAG; GPU для навчання. Така сама панель.

Без кредитної картки · Гарантія повернення коштів за 14 днів · Скасування в будь-який час