50% de desconto todos os planos, por tempo limitado. A partir de $2.48/mo

Hospedagem VPS para IA

Cargas de trabalho de IA,
escolha o seu plano.

GPU de alta capacidade para inferência / RAG, ou GPU classe NVIDIA para treinamento, tudo no mesmo painel de controle.
Cloud independente desde 2008. A partir de $2,48/mês · acesso root SSH em 60 segundos.

4.6 · 728 reviews on Trustpilot

CPU de $2.48/mo · Planos de GPU em preços · Reembolso em 14 dias

~ ssh root@ai-nyc-001 conectado
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalando o runtime Ollama... concluído
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
baixando manifesto · fazendo download de 4,7 GB para NVMe
modelo pronto · CPU inferência iniciando
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Olá! Como posso ajudar você hoje?"}
root@ai-nyc-001:~# _

VPS de IA num relance

Cloudzy oferece hospedagem de IA VPS em dois formatos: planos CPU de alto RAM para inferência quantizada LLM, RAG e pipelines, além de NVIDIA-class Planos GPU para treinamento e inferência de modelos grandes. Os planos rodam em AMD EPYC, armazenamento NVMe, e 40 Gbps links cruzados 12 regiões. CPU começa em $2.48 per month; o provisionamento leva 60 segundos; Imagens CUDA vêm pré-configuradas nos planos GPU. Cloudzy opera de forma independente desde 2008, serve Mais de 122.000 desenvolvedores, e é avaliado 4.6 / 5 by 728+ reviewers no Trustpilot.

CPU começa em
$2.48 / month
Tipos de GPU
RTX · Pro
Provisionamento
60 segundos
Regiões
12 em todo o mundo
Tempo de funcionamento SLA
99.95%
Reembolso de dinheiro
14 dias

Por que desenvolvedores de IA escolhem Cloudzy

Uma nuvem que ships AI.

Quatro motivos para rodar sua carga de trabalho de IA aqui.

AMD EPYC + NVMe

GPU mais recente para inferência de EPYC, NVMe para carregamentos rápidos de modelos. GPUs dedicadas via PCI passthrough nos planos GPU.

14 dias de garantia

Execute seu teste real de latência de inferência no Cloudzy. Se não atender ao seu SLO, solicite reembolso em até 14 dias.

Tempo de atividade de 99,95%

IAs em produção precisam de um host que não reinicie nos momentos de maior carga. Uptime dos últimos 30 dias disponível publicamente em status.cloudzy.com.

Engenheiros no chat

Com problemas em versões CUDA, erros NCCL ou ajuste de vLLM? Engenheiros com experiência em workloads de IA, resposta em minutos.

A pilha de IA

Use o framework que quiser.
Funciona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, tudo roda sem complicações. As imagens CUDA pré-configuradas nos planos GPU dispensam a instalação manual de drivers. Os planos CPU lidam com inferência quantizada e workers de embedding a um custo acessível.

Docker + nvidia-container-toolkit pronto nos planos GPU
PyTorch
CPU e GPU
TensorFlow
CPU e GPU
vLLM
Serviço de GPU LLM
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
Armazenamento vetorial para RAG
Qdrant
Banco de Dados Vetorial
LangChain
Framework de agente

Casos de uso

O que equipes de IA usam de verdade
Cloudzy.

Inferências LLM API

Sirva modelos quantizados de classe 7B–70B por trás do seu próprio endpoint compatível com OpenAI. vLLM ou TGI em GPU, llama.cpp / Ollama em CPU grande. Cobre seus clientes por token.

Backends RAG

Postgres + pgvector ou Qdrant em um CPU VPS, com uma box GPU opcional para embedding/geração. NVMe garante que as buscas vetoriais continuem rápidas.

Tempos de execução do agente

Agentes LangChain ou LlamaIndex de longa duração que consomem APIs da OpenAI/Anthropic API e seus próprios dados. IP estático mantém as chamadas de ferramentas estáveis.

Geração de imagens e vídeos

Stable Diffusion, SDXL, ComfyUI, modelos de vídeo em GPUs com GPUs RTX. Com o NVMe, você troca de modelo em segundos, não em minutos.

Ajuste fino e treinamento

Fine-tuning com LoRA / QLoRA em GPUs RTX, treinamento de parâmetros completos em GPUs datacenter. CUDA, NCCL e PyTorch já configurados.

Incorporar workers

Execute um worker de sentence-transformers em uma instância de 16–32 GB CPU VPS para gerar embeddings de milhões de documentos sem pagar tarifas por chamada SaaS.

60s
Provisionamento
40 Gbps
Ligação ascendente
Apenas NVMe
Armazenamento
12
Regiões
99.95%
Tempo de funcionamento SLA
14 dias
Reembolso de dinheiro

Rede global

12 regiões. Quatro continentes.
Latência de inferência, resolvida.

Coloque seu AI API perto dos seus clientes. Use um gateway CPU em uma região e um servidor GPU em outra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Planos de CPU para IA

Modelos LLMs quantizados · RAG · Embeddings. CPU é suficiente.

Muitos workloads de IA são limitados por CPU. Cobrança por hora · 50% de desconto em todos os planos · Planos GPU listados separadamente em /pricing.

12 GB DDR5

Backend RAG · banco de dados vetorial · embeddings

$34.98 /mês
$69.95/mo −50%
Implementar agora
14 dias de garantia
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Inferência de médio porte CPU · gateway API

$49.98 /mês
$99.95/mo −50%
Implementar agora
14 dias de garantia
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Perguntas Frequentes. AI VPS

Perguntas frequentes respostas diretas.

O que é um AI VPS?

Um VPS de IA é um servidor cloud Linux dimensionado e configurado para cargas de trabalho de IA: alta RAM e núcleos EPYC para inferência CPU e RAG, ou GPUs de nível NVIDIA para treino e execução de modelos de grande escala. Você acessa, instala sua stack e começa a trabalhar. O mesmo VPS, em formatos diferentes para tarefas diferentes.

Preciso de um GPU, ou o CPU resolve?

Depende do modelo. LLMs quantizados da classe 7B (int4 / int8 via llama.cpp ou Ollama) funcionam bem em planos com 16–32 GB de CPU. Modelos de embedding, bancos de dados vetoriais (Qdrant, Weaviate, pgvector) e pipelines RAG são, em sua maioria, limitados por CPU. Para treinamento, servir modelos maiores ou qualquer carga intensiva em throughput, o ideal é um plano GPU.

Posso executar uma inferência API atrás de um balanceador de carga?

Sim. Execute vLLM, TGI ou seu próprio serviço FastAPI em um servidor GPU, coloque um pequeno CPU VPS na frente como gateway API e limitador de taxa. Ambos compartilham uma rede privada na mesma região. Com 40 Gbps, o gateway nunca vira gargalo.

Posso hospedar um backend RAG?

Sim, e é uma das arquiteturas mais comuns. Um CPU VPS com 16–32 GB roda Postgres + pgvector ou Qdrant com custo baixo, e você chama um GPU VPS separado ou um LLM hospedado para a geração. NVMe deixa as consultas vetoriais rápidas, e EPYC cuida do processamento de embeddings quando você processa em lote.

Quais frameworks de IA são suportados?

Todos eles. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (no hardware adequado), Hugging Face Transformers — instalação via conda, pip ou Docker. Imagens CUDA pré-configuradas nos planos GPU, acesso root completo em todos os planos.

Os GPUs são compartilhados?

Não. Os planos GPU usam PCI passthrough: o GPU que você contrata é dedicado à sua VM, com memória completa e clocks completos. CUDA, NVENC, NCCL se comportam exatamente como em bare-metal. RTX para inferência com bom custo-benefício, datacenter para treinamento de alto desempenho.

Quanta VRAM eu preciso?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Há garantia de reembolso?

Sim, são 14 dias a partir da compra, reembolso total, sem perguntas. Execute seu teste real de latência de inferência, seu benchmark real de RAG, e decida se o Cloudzy é o certo antes de se comprometer com um ano.

Qual é a velocidade de provisionamento?

Após a confirmação do pagamento, seu VPS de IA fica ativo em 60 segundos. CPU ou GPU. As imagens CUDA pré-configuradas nos planos GPU fazem o `nvidia-smi` responder em segundos. Os planos CPU vêm com Ubuntu LTS ou Debian — instale sua stack de IA via conda ou pip em poucos minutos.

Posso usar isso em produção?

Sim. SLA de 99,95% de uptime, cobrança por hora, sem contratos, IPs dedicados e a opção de escalar RAM/vCPU/armazenamento em tempo real sem precisar reconstruir o servidor. Muitos dos nossos clientes rodam inferência de IA e APIs RAG em produção direto da Cloudzy.

Pronto quando você precisar.
AI VPS em 60 segundos.

Escolha a configuração que seu workload exige. CPU para inferência / RAG; GPU para treinamento. O mesmo painel.

Sem necessidade de cartão de crédito · Garantia de reembolso de 14 dias · Cancele quando quiser