50% de descuento en todos los planes, por tiempo limitado. Desde $2.48/mo

Alojamiento VPS para Ollama

Ejecuta modelos de código abierto
LLMs en tu VPS.

VPS listo para Ollama con el último AMD EPYC y NVMe puro.
Independientes desde 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, todo bajo tu IP.

4.6· 713 reseñas en Trustpilot

Desde $2.48/mo · 50% de descuento · Sin tarjeta de crédito

~ ssh root@ollama-lon-001conectado
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "¿Qué es un VPS?"
Un VPS, o servidor privado virtual, es un entorno
de computación virtualizado con su propio sistema operativo y recursos
dedicados, alojado en la nube...
root@ollama-lon-001:~# _

El VPS con Ollama de un vistazo

Cloudzy servidores OllamaVPS VPSes listos desde 12 regiones en Norteamérica, Europa, Oriente Medio y Asia, desde $2.48 per month. Los planes van desde 512 MB to 64 GB DDR5, todo sobre almacenamiento NVMe con 40 Gbps enlaces de red. Ollama se instala en un clic; descarga Llama 3, Mistral, Qwen, DeepSeek, Gemma y sírvelos tras una API compatible con OpenAI. Los servidores se aprovisionan en 60 segundos. Cloudzy opera de forma independiente desde 2008 y tiene una valoración de 4.6 / 5 by Más de 713 reseñas en Trustpilot.

Precio inicial
$2.48 / month
Aprovisionamiento
60 segundos
Regiones
12 ubicaciones en todo el mundo
Uptime SLA
99.95%
Reembolso
14 días
Fundada
2008

Por qué los desarrolladores eligen Cloudzy

Un host para LLM desarrolladores más exigentes.

Los cuatro aspectos que los usuarios comparan con nosotros, resueltos correctamente.

Optimizado para inferencia

Almacenamiento exclusivo en AMD EPYC y NVMe, memoria DDR5, uplinks de 40 Gbps. Los pesos del modelo se cargan desde NVMe en segundos; sin discos lentos que frenen tu primera respuesta.

Prueba sin riesgo

Garantía de devolución de 14 días en todos los planes. Sin preguntas. Sin costes de configuración. Cancela desde el panel cuando quieras.

99,95% de uptime SLA

Monitorización automática en 12 regiones. El SLA de los últimos 30 días se publica en status.cloudzy.com, sin filtros de relaciones públicas.

Soporte humano 24/7

Chat en vivo y tickets con respuesta típica en menos de 5 minutos. Ingenieros, no guiones. Resolución media en menos de 1 hora.

Elige tu modelo

Modelos de pesos abiertos.
A un pull de distancia.

Llama 3 para la opción segura, Mistral para chat general, Qwen para multilingüe, DeepSeek para código, Gemma para tareas CPU ligeras. Combínalos como quieras, todos sobre el mismo NVMe.

Subida de GGUF personalizado disponible en todos los planes
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Modelos compactos de Microsoft

Casos de uso

Por qué los desarrolladores eligen
Cloudzy con Ollama VPS.

API privada para tu aplicación

Un endpoint compatible con OpenAI en tu IP dedicada, listo para usar. Crea funciones de chat, resumidores o agentes sin enviar los prompts de tus usuarios a un proveedor externo.

Agentes en segundo plano

Los agentes de larga ejecución que procesan emails en lote, rastrean sitios o etiquetan tickets automáticamente no encajan en APIs con precio por uso. Un VPS de tarifa plana sí lo hace. Programa un cron, llama a Ollama, descansa y repite.

Asistentes de código

Ejecuta DeepSeek-Coder o Qwen-Coder como backend del plugin Continue / Tabby en tu editor. Autocompletado rápido, sin coste por sugerencia y sin enviar código a terceros.

Chat de pruebas y demos de RAG

Descarga un modelo, conecta Open WebUI o LibreChat y comparte el enlace con quien quieras. Todo el stack en un VPS por el precio de unos cafés al mes.

LLMs para entornos con requisitos de cumplimiento

Los datos sensibles (legales, sanitarios, documentación interna) se quedan en tu VPS. Audita el acceso con iptables y journald: tu modelo, tu perímetro.

Entrena tus propios fine-tunes

Descarga los pesos base, afina el modelo en una máquina GPU, despliega el GGUF en un VPS Ollama CPU para inferencia. Coste bajo entre semana; gasta más solo cuando entrenes.

60s
Aprovisionamiento
40 Gbps
Uplink
Solo NVMe
Almacenamiento
12
Regiones
99.95%
Uptime SLA
14 días
Reembolso

Red global

12 regiones. Cuatro continentes.
Elige el tuyo y descarga un modelo.

Despliega tu servidor de inferencia cerca de tus usuarios. Latencia mediana P50 por debajo de 10 ms en Norteamérica y Europa.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Precios

Paga solo por lo que usas. Así de simple.

Por hora, mensual o anual. Sin tarifas de salida. Sin compromisos. Actualmente 50% de descuento todos los planes.

1 GB DDR5

Modelos CPU pequeños · 1B–3B

$3.48/mes
$6.95/mo−50%
Desplegar ahora
Reembolso en 14 días
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 dedicados
  • Ollama con un clic
2 GB DDR5

7B / 8B en CPU

$7.475/mes
$14.95/mo−50%
Desplegar ahora
Reembolso en 14 días
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 dedicados
  • Ollama con un clic

Preguntas frecuentes. VPS Ollama

Preguntas frecuentes, respuestas directas.

¿Qué es un VPS Ollama?

Un VPS Ollama es un servidor cloud Cloudzy configurado para ejecutar Ollama, el runtime local de LLM. Descarga modelos de código abierto como Llama 3, Mistral, Qwen, DeepSeek o Gemma; sírvelos desde tu propia API compatible con OpenAI; y construye aplicaciones de chat, agentes y herramientas sin enviar tráfico a un proveedor de modelos externo.

¿Viene Ollama preinstalado?

Ollama está disponible como instalación con un clic desde el panel. Elige una plantilla Linux, el binario queda disponible en tu PATH y `ollama pull llama3` funciona en menos de un minuto. La API HTTP escucha en el puerto 11434 por defecto; vincúlala a tu IP dedicada detrás de un proxy inverso.

¿Puedo ejecutar LLMs en un VPS solo con CPU?

Sí, para modelos pequeños. Llama 3 8B y Mistral 7B funcionan en una máquina CPU de 16 GB; Qwen 0.5B–3B y Gemma 2B van sin problemas con 4 GB. El rendimiento depende del tamaño del modelo y del prompt. CPU es más lento que GPU, pero suficiente para APIs de bajo volumen, proyectos personales y desarrollo.

¿Ofrecéis planes GPU para modelos más grandes?

Sí. Para modelos de clase 70B o inferencia de alto rendimiento, consulta nuestros planes GPU (RTX 4090, RTX 5090, A100). La 4090 gestiona Llama 3 70B con cuantización; A100 80 GB ejecuta modelos grandes en precisión completa. Disponible desde la página de precios.

¿Es compatible la API de OpenAI?

Sí. Ollama expone un endpoint `/v1/chat/completions` totalmente compatible con el cliente de OpenAI. Apunta tu aplicación a `http://your-vps:11434/v1`, cambia el nombre del modelo y listo. Mismo SDK, sin reescribir nada.

¿Cuánto espacio en disco ocupa un modelo?

Depende. Un modelo 7B cuantizado a 4 bits ocupa alrededor de 4 GB. Uno de 8B, unos 5 GB. Un 70B a 4 bits, ~40 GB. Descarga todos los que quepan. Los planes empiezan en 60 GB NVMe y llegan a 1,5 TB; combina los modelos que quieras en un mismo servidor.

¿Qué tan rápido es el aprovisionamiento?

Una vez confirmado el pago, tu VPS está activo en 60 segundos. Con Ollama instalado con un clic, el entorno de ejecución está listo en otro minuto. La primera descarga de un modelo tarda más (limitada por la red), pero las siguientes se sirven desde la caché en NVMe.

¿Tengo una IP dedicada?

Sí, cada VPS incluye una IPv4 estática dedicada más IPv6. Accede a la API de Ollama a través de la IP dedicada, pon un proxy inverso Caddy delante para HTTPS con un nombre de dominio real, y listo. También hay IPs flotantes disponibles.

¿Hay cargos ocultos?

No. El tráfico de salida está incluido en tu cuota de transferencia mensual. Las snapshots son gratuitas. IPv4 + IPv6 están incluidas. El acceso root está incluido. Los únicos extras de pago son las IPs flotantes ($2,50/mes) y las snapshots adicionales que superen la cuota gratuita.

¿Hay garantía de devolución?

Sí, 14 días desde la compra, sin preguntas, reembolso completo. Solicítalo desde el panel o escribe a [email protected].

Listo cuando tú lo estés.
ollama run, en 60 segundos.

Elige una región, haz clic y descarga un modelo. Tu LLM privado, tu IP dedicada.

Sin tarjeta de crédito · Garantía de devolución de 14 días · Cancela cuando quieras