50% de descuento todos los planes, tiempo limitado. Desde $2.48/mo

Alojamiento VPS con IA

cargas de trabajo de IA,
Elige tu forma.

CPU con alta RAM para inferencia/RAG, o GPU de clase NVIDIA para entrenamiento, el mismo panel VPS.
Cloud independiente desde 2008. Desde $2,48/mes · SSH como root en 60 segundos.

4.6 · 706 reviews on Trustpilot

CPU de $2.48/mo · GPU planea en precios · Devolución de dinero en 14 días

~ ssh raíz@ai-nyc-001 conectado
raíz@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Instalando el tiempo de ejecución de Ollama... hecho
raíz@ai-nyc-001:~# ollama ejecuta llama3.1:8b-instruct-q4
tirando del manifiesto · descargando 4,7 GB a NVMe
modelo listo · inicio de inferencia de CPU
raíz@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"respuesta": "¡Hola! ¿En qué puedo ayudarte hoy?"}
raíz@ai-nyc-001:~# _

VPS con IA de un vistazo

Cloudzy ofrece alojamiento AI VPS en dos formas, alta RAM Planes CPU para inferencia LLM cuantificada, RAG y canalizaciones, además clase NVIDIA Planes de GPU para entrenamiento y servicio de modelos grandes. Los planes siguen adelante AMD EPYC, Almacenamiento NVMe, y 40 Gbps enlaces en 12 regiones. La CPU comienza en $2,48 al mes; toma de aprovisionamiento 60 segundos; Las imágenes CUDA están prefabricadas en planes de GPU. Cloudzy ha operado de forma independiente desde 2008, sirve a Más de 122.000 desarrolladores, y tiene una valoración de 4.6 / 5 by 706+ reviewers en Trustpilot.

La CPU comienza en
$2,48 / mes
Tipos de GPU
RTX · Pro
Aprovisionamiento
60 segundos
Regiones
12 en todo el mundo
SLA de uptime
99.95%
Devolución de dinero
14 dias

Por qué los desarrolladores de IA eligen Cloudzy

una nube que envía IA.

Cuatro razones por las que su carga de trabajo de IA pertenece aquí.

AMD EPYC + NVMe

EPYC más reciente para inferencia de CPU, NVMe para cargas rápidas de modelos. GPU dedicadas a través de transferencia PCI en planes de GPU.

Reembolso en 14 días

Ejecute su prueba de latencia de inferencia real en Cloudzy. Si no se ajusta a su SLO, reembolso dentro de los 14 días.

99,95% de tiempo de actividad

Las API de IA de producción necesitan un host que no se reinicie durante el pico. SLA de los últimos 30 días rastreado públicamente en status.cloudzy.com.

Ingenieros en el chat

¿Atascado en las versiones CUDA, errores NCCL o ajuste de vLLM? Ingenieros con experiencia en cargas de trabajo de IA, minutos, no horas.

La pila de IA

Traiga cualquier marco.
Funciona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, todos se ejecutan limpiamente. Precocido Las imágenes CUDA en los planos GPU se saltan el baile del conductor. Los planes CPU manejan inferencia cuantificada y incorporar trabajadores a bajo costo.

Docker + nvidia-container-toolkit listo para planes de GPU
PyTorch
CPU y GPU
TensorFlow
CPU y GPU
vllm
Servicio de GPU LLM
Ollama
LLM de CPU + GPU
abrazando la cara
Transformers · Diffusers
pgvector
Tienda de vectores RAG
Qdrant
BD vectorial
LangChain
Marco del agente

Casos de uso

En qué funcionan los equipos de IA
Cloudzy.

API de inferencia LLM

Ofrezca LLM cuantificados de clase 7B a 70B detrás de su propio punto final compatible con OpenAI. vLLM o TGI en GPU, llama.cpp/Ollama en CPU grande. Factura a tus clientes por token.

backends de RAG

Postgres + pgvector o Qdrant en un VPS con CPU, caja de GPU opcional para incrustación/generación. NVMe significa que las búsquedas de vectores se mantienen ágiles.

Tiempos de ejecución del agente

Agentes LangChain o LlamaIndex de larga duración que acceden a las API OpenAI/Anthropic y a sus propios datos. La IP estática mantiene estable la llamada de herramientas.

Generación de imagen/video

Difusión estable, SDXL, ComfyUI, modelos de vídeo en GPU de clase RTX. NVMe te permite intercambiar modelos en segundos, no en minutos.

Ajuste y formación

LoRA/QLoRA realiza ajustes finos en el entrenamiento de parámetros completos de clase RTX en GPU de clase de centro de datos. CUDA, NCCL, PyTorch precocidos.

Trabajadores integrados

Ejecute un trabajador transformador de oraciones en un VPS con CPU de 16 a 32 GB para insertar millones de documentos sin pagar tarifas SaaS por llamada.

60s
Aprovisionamiento
40 Gbps
Enlace ascendente
Solo NVMe
Almacenamiento
12
Regiones
99.95%
SLA de uptime
14 dias
Devolución de dinero

Red global

12 regiones. Cuatro continentes.
Latencia de inferencia, solucionada.

Coloque su API de IA cerca de sus clientes. Empareje una puerta de enlace de CPU en una región con una caja de GPU en otra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Planes de IA de CPU

LLMs cuantificados · RAG · Incrustaciones. La CPU es suficiente.

Muchas cargas de trabajo de IA están vinculadas a la CPU. Facturación por horas · 50 % de descuento en todos los planes · Los planes de GPU se enumeran por separado en /precios.

12 GB DDR5

Backend RAG · base de datos vectorial · incrustaciones

$34.98 /mes
$69.95/mo −50%
Desplegar ahora
Reembolso en 14 días
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama/vLLM
  • SSH root · KVM
16 GB DDR5

Inferencia de CPU de tamaño mediano · Puerta de enlace API

$49.98 /mes
$99.95/mo −50%
Desplegar ahora
Reembolso en 14 días
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama/vLLM
  • SSH root · KVM

Preguntas frecuentes. VPS con IA

Preguntas habituales, respuestas directas.

¿Qué es un VPS con IA?

Un AI VPS es un servidor en la nube Linux dimensionado y configurado para cargas de trabajo de AI, alta RAM y núcleos EPYC para inferencia CPU y RAG, o GPU de clase NVIDIA para entrenamiento y servicio de modelos grandes. Entras por SSH, instalas tu pila y la ejecutas. Mismo VPS, diferentes formas para diferentes trabajos.

¿Necesito una GPU o funcionará la CPU?

Depende del modelo. Los LLM cuantificados de clase 7B (int4/int8 a través de llama.cpp u Ollama) se ejecutan de manera útil en un plan de CPU de 16 a 32 GB. Los modelos de incrustación, las bases de datos vectoriales (Qdrant, Weaviate, pgvector) y las canalizaciones RAG están en su mayoría vinculadas a la CPU. Para capacitación, servicio de modelos más grandes o cualquier cosa que requiera un alto rendimiento, desea un plan de GPU.

¿Puedo ejecutar una API de inferencia detrás de un balanceador de carga?

Sí. Ejecute vLLM, TGI o su propio servicio FastAPI en una caja de GPU, coloque un VPS de CPU pequeño al frente como puerta de enlace API y limitador de velocidad. Ambos comparten una red privada en la misma región. 40 Gbps significa que la puerta de enlace nunca es el cuello de botella.

¿Puedo alojar un backend de RAG?

Sí, y es una de las formas más comunes. Un VPS CPU de 16 a 32 GB ejecuta Postgres + pgvector o Qdrant a un precio económico; puede solicitar un VPS GPU o un LLM alojado para generarlo. NVMe hace que las consultas vectoriales sean ágiles, EPYC maneja el cálculo de incrustación cuando se realiza por lotes.

¿Qué marcos de IA son compatibles?

Todos. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (en el hardware apropiado), Hugging Face Transformers, instalación mediante conda, pip o Docker. Imágenes CUDA predefinidas en los planes GPU, raíz completa en cada plan.

¿Se comparten las GPU?

No. Los planes GPU utilizan transferencia PCI, el GPU que reserve está dedicado a su VM, memoria completa y relojes completos. CUDA, NVENC, NCCL se comportan igual que en una caja metálica. Clase RTX para inferencia rentable, clase de centro de datos para capacitación de alto nivel.

¿Cuánta VRAM necesito?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

¿Hay garantía de reembolso?

Sí, 14 días desde la compra, reembolso completo, sin preguntas. Ejecute su prueba de latencia de inferencia real, su punto de referencia RAG real, y decida si Cloudzy encaja antes de comprometerse con un año.

¿Cuánto tarda el aprovisionamiento?

Una vez confirmado el pago, su AI VPS estará activo en 60 segundos. CPU o GPU. Las imágenes CUDA precocidas en los planes GPU significan que `nvidia-smi` regresa en segundos. Los planes CPU se envían con Ubuntu LTS o Debian, instale su pila de IA mediante conda o pip en unos minutos.

¿Puedo usar esto en producción?

Sí. 99,95 % de tiempo de actividad SLA, facturación por horas, sin compromisos, IP dedicadas y la opción de escalar RAM/vCPU/almacenamiento en vivo sin reconstrucción. Muchos de nuestros clientes ejecutan inferencia de IA y API RAG en producción desde Cloudzy.

Listos cuando tú lo estés.
VPS AI en 60 segundos.

Elige la forma que necesita su carga de trabajo. CPU para inferencia/RAG; GPU para entrenamiento. Mismo panel.

Sin tarjeta de crédito · Garantía de reembolso en 14 días · Cancela cuando quieras