50% de desconto todos os planos, tempo limitado. A partir de $2.48/mo

Hospedagem AI VPS

Cargas de trabalho de IA,
escolha sua forma.

CPU de alta RAM para inferência / RAG ou GPU de classe NVIDIA para treinamento, mesmo painel VPS.
Cloud independente, desde 2008. A partir de $2,48/mês · root SSH em 60 segundos.

4.6 · 706 reviews on Trustpilot

CPU de $2.48/mo · GPU planeja preços · Devolução do dinheiro em 14 dias

~ ssh raiz@ai-nyc-001 conectado
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | eh
Instalando o tempo de execução do Ollama... concluído
root@ai-nyc-001:~# ollama execute lhama3.1:8b-instruct-q4
puxando manifesto · baixando 4,7 GB para NVMe
modelo pronto · Inferência de CPU iniciando
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Olá! Como posso ajudá-lo hoje?"}
root@ai-nyc-001:~# _

Visão geral do AI VPS

Cloudzy oferece hospedagem AI VPS em dois formatos, alta RAM CPU planeja inferência LLM quantizada, RAG e pipelines, além Classe NVIDIA Planos de GPU para treinamento e execução de modelos grandes. Os planos rodam em AMD EPYC, Armazenamento NVMe, e 40 Gbps uplinks em 12 regiões. CPU começa em $2,48 por mês; o provisionamento leva 60 segundos; As imagens CUDA são pré-preparadas nos planos de GPU. Cloudzy opera de forma independente desde 2008, serve Mais de 122.000 desenvolvedores, e está classificada com 4.6 / 5 by 706+ reviewers no Trustpilot.

CPU começa em
$2,48 / mês
Tipos de GPU
RTX · Profissional
Provisionamento
60 segundos
Regiões
12 em todo o mundo
SLA de uptime
99.95%
Devolução do dinheiro
14 dias

Por que os desenvolvedores de IA escolhem Cloudzy

Uma nuvem que envia IA.

Quatro razões pelas quais sua carga de trabalho de IA pertence aqui.

AMD EPYC + NVMe

EPYC mais recente para inferência de CPU, NVMe para carregamentos rápidos de modelo. GPUs dedicadas via passagem PCI em planos de GPU.

Reembolso em 14 dias

Execute seu teste de latência de inferência real no Cloudzy. Se não se adequar ao seu SLO, reembolse dentro de 14 dias.

99,95% de tempo de atividade

As APIs de IA de produção precisam de um host que não seja reinicializado durante o pico. SLA dos últimos 30 dias monitorado publicamente em status.cloudzy.com.

Engenheiros no chat

Preso em versões CUDA, erros NCCL ou ajuste de vLLM? Engenheiros com experiência em carga de trabalho de IA, minutos e não horas.

A pilha de IA

Traga qualquer estrutura.
Ele funciona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, todos funcionam de forma limpa. Pré-assado Imagens CUDA nos planos GPU ignoram a dança do driver. Os planos CPU lidam com inferência quantizada e incorporar trabalhadores de forma barata.

Docker + nvidia-container-toolkit pronto para planos de GPU
PyTorch
CPU e GPU
TensorFlow
CPU e GPU
vLLM
Serviço GPU LLM
Ollama
LLMs de CPU + GPU
Abraçando o rosto
Transformers · Diffusers
vetor pg
Loja de vetores RAG
Qdrant
Banco de dados vetorial
LangChain
Estrutura do agente

Casos de uso

Em que as equipes de IA funcionam
Cloudzy.

APIs de inferência LLM

Sirva LLMs quantizados das classes 7B a 70B por trás de seu próprio endpoint compatível com OpenAI. vLLM ou TGI em GPU, llama.cpp / Ollama em CPU grande. Faturar seus clientes por token.

Back-ends RAG

Postgres + pgvector ou Qdrant em uma CPU VPS, caixa GPU opcional para incorporação/geração. NVMe significa que as pesquisas de vetor permanecem rápidas.

Tempos de execução do agente

Agentes LangChain ou LlamaIndex de longa duração que atingem APIs OpenAI/Anthropic e seus próprios dados. O IP estático mantém a chamada de ferramentas estável.

Geração de imagem/vídeo

Difusão estável, SDXL, ComfyUI, modelos de vídeo em GPUs de classe RTX. O NVMe permite trocar modelos em segundos, não em minutos.

Ajuste fino e treinamento

LoRA/QLoRA faz ajustes finos no treinamento de parâmetros completos de classe RTX em GPUs de classe de datacenter. CUDA pré-cozido, NCCL, PyTorch.

Incorporando trabalhadores

Execute um trabalhador transformador de frases em um VPS de CPU de 16 a 32 GB para incorporar milhões de documentos sem pagar taxas de SaaS por chamada.

60s
Provisionamento
40 Gbps
Ligação ascendente
Somente NVMe
Armazenar
12
Regiões
99.95%
SLA de uptime
14 dias
Devolução do dinheiro

Rede global

12 regiões. Quatro continentes.
Latência de inferência, resolvida.

Coloque sua API de IA perto de seus clientes. Emparelhe um gateway de CPU em uma região com uma caixa de GPU em outra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Planos de IA de CPU

LLMs quantizados · RAG · Embeddings. CPU é suficiente.

Muitas cargas de trabalho de IA são vinculadas à CPU. Faturamento por hora · 50% de desconto em todos os planos · Planos de GPU listados separadamente em /preço.

12 GB DDR5

Back-end RAG · banco de dados vetorial · embeddings

$34.98 / mês
$69.95/mo −50%
Implantar agora
Reembolso em 14 dias
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama/vLLM
  • Root SSH · KVM
16 GB DDR5

Inferência de CPU de médio porte · Gateway de API

$49.98 / mês
$99.95/mo −50%
Implantar agora
Reembolso em 14 dias
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama/vLLM
  • Root SSH · KVM

PERGUNTAS FREQUENTES. IA VPS

Perguntas comuns, respostas diretas.

O que é um AI VPS?

Um AI VPS é um servidor em nuvem Linux dimensionado e configurado para cargas de trabalho de IA, alta RAM e núcleos EPYC para inferência e RAG CPU, ou GPUs de classe NVIDIA para treinamento e atendimento de modelos grandes. Você faz login por SSH, instala sua pilha e executa. O mesmo VPS, formatos diferentes para trabalhos diferentes.

Preciso de uma GPU ou a CPU funcionará?

Depende do modelo. LLMs quantizados de classe 7B (int4 / int8 via llama.cpp ou Ollama) são executados de forma útil em um plano de CPU de 16 a 32 GB. Incorporação de modelos, bancos de dados vetoriais (Qdrant, Weaviate, pgvector) e pipelines RAG são principalmente vinculados à CPU. Para treinamento, serviço de modelo maior ou qualquer coisa com alto rendimento, você deseja um plano de GPU.

Posso executar uma API de inferência atrás de um balanceador de carga?

Sim. Execute vLLM, TGI ou seu próprio serviço FastAPI em uma caixa de GPU, coloque uma pequena CPU VPS na frente como gateway de API e limitador de taxa. Ambos compartilham uma rede privada na mesma região. 40 Gbps significa que o gateway nunca é o gargalo.

Posso hospedar um back-end RAG?

Sim, e é uma das formas mais comuns. Um VPS CPU de 16–32 GB executa Postgres + pgvector ou Qdrant barato, você chama um VPS GPU ou LLM hospedado para geração. NVMe torna as consultas vetoriais rápidas, EPYC lida com a computação de incorporação quando você faz lotes.

Quais estruturas de IA são suportadas?

Todos eles. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (no hardware apropriado), Hugging Face Transformers, instale via conda, pip ou Docker. Imagens CUDA pré-preparadas nos planos GPU, raiz completa em todos os planos.

As GPUs são compartilhadas?

Os planos GPU usam passagem PCI, o GPU que você reserva é dedicado à sua VM, memória total e clocks completos. CUDA, NVENC, NCCL se comportam da mesma forma que em uma caixa bare-metal. Classe RTX para inferência econômica, classe datacenter para treinamento de alto nível.

Quanto VRAM eu preciso?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Existe garantia de reembolso?

Sim, 14 dias a partir da compra, reembolso total, sem perguntas. Execute seu teste de latência de inferência real, seu benchmark RAG real e decida se o Cloudzy se ajusta antes de se comprometer com um ano.

Quão rápido é o provisionamento?

Assim que o pagamento for confirmado, seu AI VPS estará ativo em 60 segundos. CPU ou GPU. Imagens CUDA pré-preparadas em planos GPU significam retornos `nvidia-smi` em segundos. Os planos CPU são fornecidos com Ubuntu LTS ou Debian, instale sua pilha de IA via conda ou pip em alguns minutos.

Posso usar isso na produção?

Sim. SLA de tempo de atividade de 99,95%, faturamento por hora, sem compromissos, IPs dedicados e a opção de dimensionar RAM/vCPU/armazenamento em tempo real sem reconstrução. Muitos de nossos clientes executam inferência de IA e APIs RAG em produção na Cloudzy.

Prontos quando você estiver.
AI VPS em 60 segundos.

Escolha o formato que sua carga de trabalho precisa. CPU para inferência/RAG; GPU para treinamento. Mesmo painel.

Sem cartão de crédito · garantia de reembolso em 14 dias · cancele quando quiser