50% de descuento en todos los planes, por tiempo limitado. Desde $2.48/mo

Hosting de IA con VPS

Cargas de trabajo de IA,
elige tu configuración.

CPU de alta RAM para inferencia / RAG, o GPU de grado NVIDIA para entrenamiento, todo en el mismo panel de VPS.
Cloud independiente, desde 2008. Desde $2.48/mes · acceso SSH por SSH en 60 segundos.

4.6 · 728 reviews on Trustpilot

CPU desde $2.48/mo · Planes de GPU en precios · 14 días de garantía de devolución

~ ssh root@ai-nyc-001 conectado
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalando el entorno de ejecución Ollama... listo
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
descargando manifiesto · descargando 4,7 GB a NVMe
modelo listo · iniciando inferencia CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"¡Hola! ¿En qué puedo ayudarte hoy?"}
root@ai-nyc-001:~# _

VPS de AI en resumen

Cloudzy ofrece hosting de VPS de AI en dos modalidades: planes CPU de alto RAM para inferencia cuantizada LLM, RAG y pipelines, además de planes NVIDIA-class GPU para entrenamiento y servicio de modelos grandes. Los planes se ejecutan en AMD EPYC, almacenamiento NVMe, y 40 Gbps enlaces en 12 regiones. CPU desde $2.48 per month; el aprovisionamiento tarda 60 segundos; las imágenes CUDA vienen preconfiguradas en los planes GPU. Cloudzy opera de forma independiente desde 2008, atiende Más de 122.000 desarrolladores, y tiene una valoración de 4.6 / 5 by 728+ reviewers en Trustpilot.

CPU desde
$2.48 / month
tipos GPU
RTX · Pro
Aprovisionamiento
60 segundos
Regiones
12 ubicaciones en todo el mundo
Acuerdo de nivel de servicio de tiempo de disponibilidad
99.95%
Reembolso
14 días

Por qué los desarrolladores de IA eligen Cloudzy

Una nube que despliega IA.

Cuatro razones para alojar tu carga de trabajo de IA aquí.

AMD EPYC + NVMe

Las últimas EPYC para inferencia con CPU, NVMe para cargas de modelo rápidas. GPUs dedicadas mediante PCI passthrough en los planes GPU.

Reembolso en 14 días

Haz tu prueba real de latencia de inferencia en Cloudzy. Si no se ajusta a tu SLO, reembolso en 14 días.

99,95 % de disponibilidad

Las APIs de IA en producción necesitan un proveedor que no reinicie en horas pico. El SLA de los últimos 30 días se publica en tiempo real en status.cloudzy.com.

Ingenieros en el chat

¿Problemas con versiones de CUDA, errores de NCCL o ajuste de vLLM? Ingenieros con experiencia en cargas de trabajo de IA, en minutos, no en horas.

El stack de IA

Trae el framework que quieras.
Funciona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, todos funcionan sin problemas. Las imágenes CUDA preconfiguradas en los planes GPU eliminan la instalación manual de drivers. Los planes CPU gestionan inferencia cuantizada y workers de embeddings a bajo coste.

Docker + nvidia-container-toolkit listo en los planes GPU
PyTorch
CPU y GPU
TensorFlow
CPU y GPU
vLLM
Servicio GPU LLM
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
almacén de vectores RAG
Qdrant
Base de Datos Vectorial
LangChain
Marco de agentes

Casos de uso

Lo que usan los equipos de IA
Cloudzy.

Inferencia de LLM APIs

Sirve modelos cuantizados de clase 7B–70B detrás de tu propio endpoint compatible con OpenAI. vLLM o TGI en GPU, llama.cpp / Ollama en CPU grande. Cobra a tus clientes por token.

Backends RAG

Postgres + pgvector o Qdrant en un VPS CPU, con una caja GPU opcional para embeddings y generación. NVMe garantiza búsquedas vectoriales ágiles.

Runtimes de agentes

Agentes LangChain o LlamaIndex de larga ejecución que consultan APIs de OpenAI/Anthropic y tus propios datos. Una IP estática mantiene estable el tool-calling.

Generación de imágenes y vídeo

Stable Diffusion, SDXL, ComfyUI y modelos de vídeo en GPUs con GPU RTX. NVMe te permite cambiar de modelo en segundos, no en minutos.

Fine-tuning y entrenamiento

Fine-tuning con LoRA / QLoRA en GPUs RTX, entrenamiento de parámetros completos en GPUs de clase datacenter. CUDA, NCCL y PyTorch preinstalados.

Workers de embeddings

Ejecuta un worker de sentence-transformers en un VPS CPU de 16–32 GB para procesar millones de documentos sin pagar tarifas por llamada SaaS.

60s
Aprovisionamiento
40 Gbps
Enlace ascendente
Solo NVMe
Almacenamiento
12
Regiones
99.95%
Acuerdo de nivel de servicio de tiempo de disponibilidad
14 días
Reembolso

Red global

12 regiones. Cuatro continentes.
Latencia de inferencia, resuelta.

Acerca tu API de IA a tus usuarios. Combina un gateway CPU en una región con una caja GPU en otra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Planes de IA CPU

LLMs cuantizados · RAG · Embeddings. CPU es suficiente.

Muchas cargas de trabajo de IA están limitadas por CPU. Facturación por horas · 50 % de descuento en todos los planes · Planes GPU disponibles por separado en /pricing.

12 GB DDR5

Backend RAG · base de datos vectorial · embeddings

$34.98 /mes
$69.95/mo −50%
Desplegar ahora
Reembolso en 14 días
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • SSH root · KVM
16 GB DDR5

Inferencia CPU de tamaño medio · gateway API

$49.98 /mes
$99.95/mo −50%
Desplegar ahora
Reembolso en 14 días
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • SSH root · KVM

Preguntas frecuentes. AI VPS

Preguntas frecuentes, respuestas directas.

¿Qué es un AI VPS?

Un AI VPS es un servidor cloud Linux configurado para cargas de trabajo de IA: núcleos de alta RAM y EPYC para inferencia CPU y RAG, o GPUs de clase NVIDIA para entrenamiento y servicio de modelos grandes. Te conectas, instalas tu stack y ejecutas. El mismo VPS, distintas configuraciones para distintos usos.

¿Necesito un GPU o bastará con CPU?

Depende del modelo. Los LLMs cuantizados de clase 7B (int4 / int8 con llama.cpp o Ollama) funcionan bien en un plan CPU de 16–32 GB. Los modelos de embeddings, las bases de datos vectoriales (Qdrant, Weaviate, pgvector) y los pipelines RAG son mayoritariamente CPU-bound. Para entrenamiento, servicio de modelos grandes o cualquier tarea con alto volumen de datos, necesitas un plan GPU.

¿Puedo ejecutar un API de inferencia detrás de un balanceador de carga?

Sí. Ejecuta vLLM, TGI o tu propio servicio FastAPI en un servidor GPU, y pon delante un VPS CPU pequeño como gateway API y limitador de tasa. Ambos comparten una red privada en la misma región. Con 40 Gbps, el gateway nunca es el cuello de botella.

¿Puedo alojar un backend RAG?

Sí, y es una de las configuraciones más habituales. Un VPS CPU de 16–32 GB ejecuta Postgres + pgvector o Qdrant a bajo coste; para la generación, llamas a un VPS GPU o a un LLM alojado externamente. NVMe mantiene las consultas vectoriales ágiles, y EPYC gestiona el cómputo de embeddings en batch.

¿Qué frameworks de IA son compatibles?

Todos. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (en el hardware correspondiente), Hugging Face Transformers: instala con conda, pip o Docker. Los planes GPU incluyen imágenes CUDA preconfiguradas; todos los planes tienen acceso root completo.

¿Los GPUs son compartidos?

No. Los planes GPU usan PCI passthrough: el GPU que contratas está dedicado a tu VM, con memoria completa y frecuencias completas. CUDA, NVENC y NCCL se comportan igual que en un servidor bare-metal. Clase RTX para inferencia con buena relación calidad-precio; clase datacenter para entrenamiento de alto rendimiento.

¿Cuánta VRAM necesito?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

¿Hay garantía de devolución?

Sí, 14 días desde la compra, reembolso completo, sin preguntas. Haz tu prueba real de latencia de inferencia, tu benchmark RAG real, y decide si Cloudzy se ajusta a tus necesidades antes de comprometerte con un año.

¿Qué tan rápido es el aprovisionamiento?

Una vez confirmado el pago, tu AI VPS estará activo en 60 segundos. CPU o GPU. Las imágenes CUDA preconfiguradas en los planes GPU hacen que `nvidia-smi` responda en segundos. Los planes CPU incluyen Ubuntu LTS o Debian; instala tu stack de IA con conda o pip en pocos minutos.

¿Puedo usar esto en producción?

Sí. Garantía de disponibilidad del 99,95% SLA, facturación por horas, sin compromisos, IPs dedicadas y la opción de escalar RAM/vCPU/almacenamiento en caliente sin reconstruir el servidor. Muchos de nuestros clientes ejecutan inferencia de AI y pipelines RAG API en producción desde Cloudzy.

Listo cuando tú lo estés.
VPS de AI en 60 segundos.

Elige la configuración que necesita tu carga de trabajo. CPU para inferencia / RAG; GPU para entrenamiento. Todo en el mismo panel.

Sin tarjeta de crédito · Garantía de devolución de 14 días · Cancela cuando quieras