What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Alojamiento VPS para Ollama

Ejecuta modelos de código abierto
LLMs en tu VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

VPS listo para Ollama con el último AMD EPYC y NVMe puro.
Independientes desde 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, todo bajo tu IP.

4.6· 735 reviews on Trustpilot

Despliega un VPS con Ollama Comparar planes

Desde $2.48/mo · 50% de descuento · Sin tarjeta de crédito

~ ssh root@ollama-lon-001conectado

root@ollama-lon-001:~# ollama pull llama3
extrayendo manifiesto... extrayendo modelo 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "¿Qué es un VPS?"
Un VPS, o servidor privado virtual, es un entorno
de computación virtualizado con su propio sistema operativo y recursos
dedicados, alojado en la nube...
root@ollama-lon-001:~# _

El VPS con Ollama de un vistazo

Cloudzy servidores OllamaVPS VPSes listos desde 12 regiones en Norteamérica, Europa, Oriente Medio y Asia, desde $2.48 per month. Los planes van desde 512 MB to 64 GB DDR5, todo sobre almacenamiento NVMe con 40 Gbps enlaces de red. Ollama se instala en un clic; descarga Llama 3, Mistral, Qwen, DeepSeek, Gemma y sírvelos tras una API compatible con OpenAI. Los servidores se aprovisionan en 60 segundos. Cloudzy opera de forma independiente desde 2008 y tiene una valoración de 4.6 / 5 by 735+ reviewers en Trustpilot.

Precio inicial: $2.48 / month
Aprovisionamiento: 60 segundos
Regiones: 12 ubicaciones en todo el mundo
Acuerdo de nivel de servicio de tiempo de disponibilidad: 99.95%
Reembolso: 14 días
Fundada: 2008

Por qué los desarrolladores eligen Cloudzy

Un host para LLM desarrolladores más exigentes.

Los cuatro aspectos que los usuarios comparan con nosotros, resueltos correctamente.

Optimizado para inferencia

Almacenamiento exclusivo en AMD EPYC y NVMe, memoria DDR5, uplinks de 40 Gbps. Los pesos del modelo se cargan desde NVMe en segundos; sin discos lentos que frenen tu primera respuesta.

Prueba sin riesgo

Garantía de devolución de 14 días en todos los planes. Sin preguntas. Sin costes de configuración. Cancela desde el panel cuando quieras.

99,95% de uptime SLA

Monitorización automática en 12 regiones. El SLA de los últimos 30 días se publica en status.cloudzy.com, sin filtros de relaciones públicas.

Soporte humano 24/7

Chat en vivo y tickets con respuesta típica en menos de 5 minutos. Ingenieros, no guiones. Resolución media en menos de 1 hora.

Elige tu modelo

Modelos de pesos abiertos.
A un pull de distancia.

Llama 3 para la opción segura, Mistral para chat general, Qwen para multilingüe, DeepSeek para código, Gemma para tareas CPU ligeras. Combínalos como quieras, todos sobre el mismo NVMe.

Subida de GGUF personalizado disponible en todos los planes

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Modelos compactos de Microsoft

Casos de uso

Por qué los desarrolladores eligen
Cloudzy con Ollama VPS.

API privada para tu aplicación

Un endpoint compatible con OpenAI en tu IP dedicada, listo para usar. Crea funciones de chat, resumidores o agentes sin enviar los prompts de tus usuarios a un proveedor externo.

Agentes en segundo plano

Los agentes de larga ejecución que procesan emails en lote, rastrean sitios o etiquetan tickets automáticamente no encajan en APIs con precio por uso. Un VPS de tarifa plana sí lo hace. Programa un cron, llama a Ollama, descansa y repite.

Asistentes de código

Ejecuta DeepSeek-Coder o Qwen-Coder como backend del plugin Continue / Tabby en tu editor. Autocompletado rápido, sin coste por sugerencia y sin enviar código a terceros.

Chat de pruebas y demos de RAG

Descarga un modelo, conecta Open WebUI o LibreChat y comparte el enlace con quien quieras. Todo el stack en un VPS por el precio de unos cafés al mes.

LLMs para entornos con requisitos de cumplimiento

Los datos sensibles (legales, sanitarios, documentación interna) se quedan en tu VPS. Audita el acceso con iptables y journald: tu modelo, tu perímetro.

Entrena tus propios fine-tunes

Descarga los pesos base, afina el modelo en una máquina GPU, despliega el GGUF en un VPS Ollama CPU para inferencia. Coste bajo entre semana; gasta más solo cuando entrenes.

60s

Aprovisionamiento

40 Gbps

Enlace ascendente

Solo NVMe

Almacenamiento

Regiones

99.95%

Acuerdo de nivel de servicio de tiempo de disponibilidad

14 días

Reembolso

Red global

12 regiones. Cuatro continentes.
Elige el tuyo y descarga un modelo.

Despliega tu servidor de inferencia cerca de tus usuarios. Latencia mediana P50 por debajo de 10 ms en Norteamérica y Europa.

Ver las 12 regiones

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Precios

Paga solo por lo que usas. Así de simple.

Por hora, mensual o anual. Sin tarifas de salida. Sin compromisos. Actualmente 50% de descuento todos los planes.

1 GB DDR5

Modelos CPU pequeños · 1B–3B

$3.48/mes

$6.95/mo−50%

Desplegar ahora

Reembolso en 14 días

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
IPv4 + IPv6 dedicados
Ollama con un clic

2 GB DDR5

7B / 8B en CPU

$7.475/mes

$14.95/mo−50%

Desplegar ahora

Reembolso en 14 días

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
IPv4 + IPv6 dedicados
Ollama con un clic

El más popular

4 GB DDR5

Inferencia CPU de tamaño medio

$14.47/mes

$28.95/mo−50%

Desplegar ahora

Reembolso en 14 días

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
IPv4 + IPv6 dedicados
Ollama con un clic

El más popular

8 GB DDR5

Contexto amplio · host API

$26.475/mes

$52.95/mo−50%

Desplegar ahora

Reembolso en 14 días

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
IPv4 + IPv6 dedicados
Ollama con un clic

¿Necesitas más? Ver los 10 planes (hasta 64 GB)

Preguntas frecuentes. VPS Ollama

Preguntas frecuentes, respuestas directas.

¿Qué es un VPS Ollama?

Un VPS Ollama es un servidor cloud Cloudzy configurado para ejecutar Ollama, el runtime local de LLM. Descarga modelos de código abierto como Llama 3, Mistral, Qwen, DeepSeek o Gemma; sírvelos desde tu propia API compatible con OpenAI; y construye aplicaciones de chat, agentes y herramientas sin enviar tráfico a un proveedor de modelos externo.

¿Viene Ollama preinstalado?

Ollama está disponible como instalación con un clic desde el panel. Elige una plantilla Linux, el binario queda disponible en tu PATH y `ollama pull llama3` funciona en menos de un minuto. La API HTTP escucha en el puerto 11434 por defecto; vincúlala a tu IP dedicada detrás de un proxy inverso.

¿Puedo ejecutar LLMs en un VPS solo con CPU?

Sí, para modelos pequeños. Llama 3 8B y Mistral 7B funcionan en una máquina CPU de 16 GB; Qwen 0.5B–3B y Gemma 2B van sin problemas con 4 GB. El rendimiento depende del tamaño del modelo y del prompt. CPU es más lento que GPU, pero suficiente para APIs de bajo volumen, proyectos personales y desarrollo.

¿Ofrecéis planes GPU para modelos más grandes?

Sí. Para modelos de clase 70B o inferencia de alto rendimiento, consulta nuestros planes GPU (RTX 4090, RTX 5090, A100). La 4090 gestiona Llama 3 70B con cuantización; A100 80 GB ejecuta modelos grandes en precisión completa. Disponible desde la página de precios.

¿Es compatible la API de OpenAI?

Sí. Ollama expone un endpoint `/v1/chat/completions` totalmente compatible con el cliente de OpenAI. Apunta tu aplicación a `http://your-vps:11434/v1`, cambia el nombre del modelo y listo. Mismo SDK, sin reescribir nada.

¿Cuánto espacio en disco ocupa un modelo?

Depende. Un modelo 7B cuantizado a 4 bits ocupa alrededor de 4 GB. Uno de 8B, unos 5 GB. Un 70B a 4 bits, ~40 GB. Descarga todos los que quepan. Los planes empiezan en 60 GB NVMe y llegan a 1,5 TB; combina los modelos que quieras en un mismo servidor.

¿Qué tan rápido es el aprovisionamiento?

Una vez confirmado el pago, tu VPS está activo en 60 segundos. Con Ollama instalado con un clic, el entorno de ejecución está listo en otro minuto. La primera descarga de un modelo tarda más (limitada por la red), pero las siguientes se sirven desde la caché en NVMe.

¿Tengo una IP dedicada?

Sí, cada VPS incluye una IPv4 estática dedicada más IPv6. Accede a la API de Ollama a través de la IP dedicada, pon un proxy inverso Caddy delante para HTTPS con un nombre de dominio real, y listo. También hay IPs flotantes disponibles.

¿Hay cargos ocultos?

No. El tráfico de salida está incluido en tu cuota de transferencia mensual. Las snapshots son gratuitas. IPv4 + IPv6 están incluidas. El acceso root está incluido. Los únicos extras de pago son las IPs flotantes ($2,50/mes) y las snapshots adicionales que superen la cuota gratuita.

¿Hay garantía de devolución?

Sí, 14 días desde la compra, sin preguntas, reembolso completo. Solicítalo desde el panel o escribe a [email protected].

Listo cuando tú lo estés.
ollama run, en 60 segundos.

Elige una región, haz clic y descarga un modelo. Tu LLM privado, tu IP dedicada.

Despliega un VPS con Ollama Comparar todos los planes

Sin tarjeta de crédito · Garantía de devolución de 14 días · Cancela cuando quieras

Ejecuta modelos de código abiertoLLMs en tu VPS.

Un host para LLM desarrolladores más exigentes.

Optimizado para inferencia

Prueba sin riesgo

99,95% de uptime SLA

Soporte humano 24/7

Modelos de pesos abiertos.A un pull de distancia.

Por qué los desarrolladores eligenCloudzy con Ollama VPS.

API privada para tu aplicación

Agentes en segundo plano

Asistentes de código

Chat de pruebas y demos de RAG

LLMs para entornos con requisitos de cumplimiento

Entrena tus propios fine-tunes

12 regiones. Cuatro continentes.Elige el tuyo y descarga un modelo.

Paga solo por lo que usas. Así de simple.

Preguntas frecuentes, respuestas directas.

¿Qué es un VPS Ollama?

¿Viene Ollama preinstalado?

¿Puedo ejecutar LLMs en un VPS solo con CPU?

¿Ofrecéis planes GPU para modelos más grandes?

¿Es compatible la API de OpenAI?

¿Cuánto espacio en disco ocupa un modelo?

¿Qué tan rápido es el aprovisionamiento?

¿Tengo una IP dedicada?

¿Hay cargos ocultos?

¿Hay garantía de devolución?

Listo cuando tú lo estés.ollama run, en 60 segundos.

Ejecuta modelos de código abierto
LLMs en tu VPS.

Modelos de pesos abiertos.
A un pull de distancia.

Por qué los desarrolladores eligen
Cloudzy con Ollama VPS.

12 regiones. Cuatro continentes.
Elige el tuyo y descarga un modelo.

Listo cuando tú lo estés.
ollama run, en 60 segundos.