What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Hospedagem Ollama VPS

Execute open-source
LLMs no seu VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

Pronto para Ollama no VPS mais recente e com NVMe puro.
Independente desde 2008. Lhama, Mistral, Qwen, DeepSeek, Gemma, tudo sob o seu IP.

4.6· 735 reviews on Trustpilot

Implante um Ollama VPS Comparar planos

A partir de $2.48/mo · 50% de desconto · Sem necessidade de cartão de crédito

~ ssh root@ollama-lon-001conectado

root@ollama-lon-001:~# ollama pull llama3
baixando manifesto... baixando modelo 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "O que é um VPS?"
A VPS, ou Virtual Private Server, é um servidor virtual privado
ambiente de computação com seu próprio SO e recursos dedicados
recursos hospedados na nuvem...
root@ollama-lon-001:~# _

Ollama VPS em resumo

Cloudzy hospeda OllamaVPSs prontos a partir de 12 regiões distribuídos pela América do Norte, Europa, Oriente Médio e Ásia, a partir de $2.48 per month. Os planos começam em 512 MB to 64 GB DDR5, tudo em armazenamento NVMe com 40 Gbps uplinks. Ollama instala com um clique; instale Llama 3, Mistral, Qwen, DeepSeek, Gemma e sirva-os atrás de um API compatível com OpenAIServidores provisionados em 60 segundos. Cloudzy opera de forma independente desde 2008 e tem classificação 4.6 / 5 by 735+ reviewers no Trustpilot.

Preço inicial: $2.48 / month
Provisionamento: 60 segundos
Regiões: 12 em todo o mundo
Tempo de funcionamento SLA: 99.95%
Reembolso de dinheiro: 14 dias
Fundado: 2008

Por que desenvolvedores escolhem a Cloudzy

Um host LLM favorito

Os quatro critérios que os compradores realmente usam para nos comparar, atendidos da forma certa.

Otimizado para inferência

Storage apenas NVMe, memória DDR5, uplinks de 40 Gbps. Os pesos do modelo carregam da NVMe em segundos — sem disco lento travando sua primeira resposta.

Teste sem risco

Garantia de reembolso de 14 dias em todos os planos. Sem perguntas. Sem taxas de configuração. Cancele pelo painel quando quiser.

Tempo de atividade de 99,95% SLA

Monitoramento automatizado em 12 regiões. O SLA dos últimos 30 dias é acompanhado publicamente em status.cloudzy.com, sem esconder nada.

suporte humano 24/7

Chat ao vivo e respostas por ticket geralmente em menos de 5 minutos. Engenheiros de verdade, não leitores de script. Resolução mediana em menos de 1 hora.

Escolha seu modelo

Modelos de pesos abertos.
A um pull de distância.

Llama 3 para a escolha segura, Mistral para chat geral, Qwen para multilíngue, DeepSeek para código, Gemma para trabalhos com modelos pequenos. Combine como quiser, tudo na mesma NVMe.

Upload de GGUF personalizado disponível em todos os planos

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Modelos compactos da Microsoft

Casos de uso

Por que desenvolvedores escolhem
API de CPU da Cloudzy.

API privada para sua aplicação

Endpoint compatível com OpenAI no seu IP dedicado. Crie recursos de chat, sumarizadores ou agentes sem enviar os prompts dos usuários para terceiros.

Agentes de fundo

Agentes de longa duração que processam e-mails em lote, fazem scraping de sites ou classificam tickets automaticamente não cabem em APIs cobradas por uso. Um servidor com taxa fixa resolve. Agende um job, chame a API, aguarde e repita.

Assistentes de código

Rode DeepSeek-Coder ou Qwen-Coder integrado ao plugin Continue / Tabby do seu editor. Autocomplete rápido, sem custo por sugestão, sem código enviado a fornecedores externos.

Chat hobby e demos de RAG

Suba um modelo, conecte o Open WebUI ou LibreChat, compartilhe um link com amigos. Toda a stack em um único servidor pelo preço de alguns cafés por mês.

Servidores compatíveis com compliance

Dados sensíveis (jurídico, saúde, documentos internos) ficam no seu servidor. Audite acessos com iptables e journald: seu modelo, seu perímetro.

Treine seus próprios fine-tunes

Baixe os pesos base, faça fine-tune em uma máquina GPU, depois publique o GGUF em um servidor de inferência com CPU. Serving barato no dia a dia, gaste mais só quando treinar.

60s

Provisionamento

40 Gbps

Ligação ascendente

Apenas NVMe

Armazenamento

Regiões

99.95%

Tempo de funcionamento SLA

14 dias

Reembolso de dinheiro

Rede global

12 regiões. Quatro continentes.
Escolha o seu e suba um modelo.

Coloque seu host de inferência perto dos seus usuários. Latência P50 mediana abaixo de 10 ms na América do Norte e na Europa.

Ver todas as 12 regiões

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Preços

Pague pelo que usar. É isso.

Por hora, mês ou ano. Sem taxas de saída. Sem fidelidade. Atualmente 50% de desconto todos os planos.

1 GB DDR5

Modelos CPU compactos · 1B–3B

$3.48/mês

$6.95/mo−50%

Implementar agora

14 dias de garantia

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
IPv4 + IPv6 Dedicado
API com um clique

2 GB DDR5

7B / 8B em CPU

$7.475/mês

$14.95/mo−50%

Implementar agora

14 dias de garantia

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
IPv4 + IPv6 Dedicado
API com um clique

Mais popular

4 GB DDR5

Inferência com modelos CPU de porte médio

$14.47/mês

$28.95/mo−50%

Implementar agora

14 dias de garantia

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
IPv4 + IPv6 Dedicado
API com um clique

Mais popular

8 GB DDR5

Contexto maior · host de API

$26.475/mês

$52.95/mo−50%

Implementar agora

14 dias de garantia

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
IPv4 + IPv6 Dedicado
API com um clique

Precisa de mais? Veja todos os 10 planos (até 64 GB)

FAQ. Servidor de API

Perguntas frequentes respostas diretas.

O que é um Ollama VPS?

Um Ollama VPS é um servidor cloud Cloudzy configurado para executar o Ollama, o runtime local de LLM. Utilize modelos open-source como Llama 3, Mistral, Qwen, DeepSeek ou Gemma; sirva-os por trás da sua própria API compatível com OpenAI; crie aplicações de chat, agentes e ferramentas sem enviar tráfego a um provedor de modelos externo.

O Ollama vem pré-instalado?

O Ollama está disponível como instalação com um clique a partir do painel. Escolha um template Linux, o binário fica disponível no seu PATH e o `ollama pull llama3` funciona em menos de um minuto. A API HTTP escuta na porta 11434 por padrão; vincule-a ao seu IP dedicado por trás de um proxy reverso.

Consigo executar LLMs num VPS apenas com CPU?

Sim, para modelos menores. O Llama 3 8B e o Mistral 7B funcionam num servidor com 16 GB de CPU; o Qwen 0.5B–3B e o Gemma 2B rodam sem problemas com 4 GB. O desempenho depende do tamanho do modelo e do prompt. CPU é mais lento que GPU, mas suficiente para APIs de baixo volume, projetos paralelos e desenvolvimento.

Vocês oferecem planos com GPU para modelos maiores?

Sim. Para modelos da classe 70B ou inferência de alto volume, consulte os nossos planos GPU (RTX 4090, RTX 5090, A100). A 4090 suporta o Llama 3 70B com quantização; a A100 80GB executa modelos grandes em precisão total. Disponível na página de preços.

A API compatível com OpenAI é suportada?

Sim. O Ollama expõe um endpoint `/v1/chat/completions` totalmente compatível com o cliente OpenAI. Aponte a sua aplicação existente para `http://your-vps:11434/v1` e altere o nome do modelo. Mesmo SDK, sem reescrita de código.

Quanto espaço em disco um modelo ocupa?

Depende. Um modelo 7B quantizado a 4 bits ocupa cerca de 4 GB. Um 8B ocupa cerca de 5 GB. Um 70B a 4 bits ocupa ~40 GB. Carregue quantos modelos couberem no seu espaço. Os planos começam em 60 GB de NVMe e vão até 1,5 TB; combine vários modelos num único servidor.

Qual é a velocidade de provisionamento?

Após a confirmação do pagamento, o seu VPS fica ativo em 60 segundos. Com o Ollama instalado com um clique, o runtime está disponível em mais um minuto. O primeiro download de modelo demora um pouco mais (limitado pela rede), mas os seguintes são carregados diretamente da cache no NVMe.

Eu recebo um IP dedicado?

Sim, cada VPS inclui um IPv4 estático dedicado mais IPv6. Aceda à API do Ollama pelo IP dedicado, coloque um proxy reverso Caddy na frente para HTTPS num hostname real, e está pronto. IPs flutuantes também estão disponíveis.

Há cobranças ocultas?

Não. O tráfego de saída está incluído na sua cota mensal de transferência. Snapshots são gratuitos. IPv4 + IPv6 estão incluídos. Acesso root está incluído. Os únicos extras pagos são IPs Flutuantes ($2,50/mês) e snapshots adicionais além da cota gratuita.

Há garantia de reembolso?

Sim, 14 dias a partir da compra, sem perguntas, reembolso integral. Solicite pelo painel ou por e-mail em [email protected].

Pronto quando você precisar.
ollama run, em 60 segundos.

Escolha uma região, clique, carregue um modelo. O seu LLM privado, o seu IP dedicado.

Implante um Ollama VPS Comparar todos os planos

Sem necessidade de cartão de crédito · Garantia de reembolso de 14 dias · Cancele quando quiser

Execute open-sourceLLMs no seu VPS.

Um host LLM favorito

Otimizado para inferência

Teste sem risco

Tempo de atividade de 99,95% SLA

suporte humano 24/7

Modelos de pesos abertos.A um pull de distância.

Por que desenvolvedores escolhemAPI de CPU da Cloudzy.

API privada para sua aplicação

Agentes de fundo

Assistentes de código

Chat hobby e demos de RAG

Servidores compatíveis com compliance

Treine seus próprios fine-tunes

12 regiões. Quatro continentes.Escolha o seu e suba um modelo.

Pague pelo que usar. É isso.

Perguntas frequentes respostas diretas.

O que é um Ollama VPS?

O Ollama vem pré-instalado?

Consigo executar LLMs num VPS apenas com CPU?

Vocês oferecem planos com GPU para modelos maiores?

A API compatível com OpenAI é suportada?

Quanto espaço em disco um modelo ocupa?

Qual é a velocidade de provisionamento?

Eu recebo um IP dedicado?

Há cobranças ocultas?

Há garantia de reembolso?

Pronto quando você precisar.ollama run, em 60 segundos.

Execute open-source
LLMs no seu VPS.

Modelos de pesos abertos.
A um pull de distância.

Por que desenvolvedores escolhem
API de CPU da Cloudzy.

12 regiões. Quatro continentes.
Escolha o seu e suba um modelo.

Pronto quando você precisar.
ollama run, em 60 segundos.