50% de desconto todos os planos, por tempo limitado. A partir de $2.48/mo

Hospedagem Ollama VPS

Execute open-source
LLMs no seu VPS.

Pronto para Ollama no VPS mais recente e com NVMe puro.
Independente desde 2008. Lhama, Mistral, Qwen, DeepSeek, Gemma, tudo sob o seu IP.

4.6· 735 reviews on Trustpilot

A partir de $2.48/mo · 50% de desconto · Sem necessidade de cartão de crédito

~ ssh root@ollama-lon-001conectado
root@ollama-lon-001:~# ollama pull llama3
baixando manifesto... baixando modelo 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "O que é um VPS?"
A VPS, ou Virtual Private Server, é um servidor virtual privado
ambiente de computação com seu próprio SO e recursos dedicados
recursos hospedados na nuvem...
root@ollama-lon-001:~# _

Ollama VPS em resumo

Cloudzy hospeda OllamaVPSs prontos a partir de 12 regiões distribuídos pela América do Norte, Europa, Oriente Médio e Ásia, a partir de $2.48 per month. Os planos começam em 512 MB to 64 GB DDR5, tudo em armazenamento NVMe com 40 Gbps uplinks. Ollama instala com um clique; instale Llama 3, Mistral, Qwen, DeepSeek, Gemma e sirva-os atrás de um API compatível com OpenAIServidores provisionados em 60 segundos. Cloudzy opera de forma independente desde 2008 e tem classificação 4.6 / 5 by 735+ reviewers no Trustpilot.

Preço inicial
$2.48 / month
Provisionamento
60 segundos
Regiões
12 em todo o mundo
Tempo de funcionamento SLA
99.95%
Reembolso de dinheiro
14 dias
Fundado
2008

Por que desenvolvedores escolhem a Cloudzy

Um host LLM favorito

Os quatro critérios que os compradores realmente usam para nos comparar, atendidos da forma certa.

Otimizado para inferência

Storage apenas NVMe, memória DDR5, uplinks de 40 Gbps. Os pesos do modelo carregam da NVMe em segundos — sem disco lento travando sua primeira resposta.

Teste sem risco

Garantia de reembolso de 14 dias em todos os planos. Sem perguntas. Sem taxas de configuração. Cancele pelo painel quando quiser.

Tempo de atividade de 99,95% SLA

Monitoramento automatizado em 12 regiões. O SLA dos últimos 30 dias é acompanhado publicamente em status.cloudzy.com, sem esconder nada.

suporte humano 24/7

Chat ao vivo e respostas por ticket geralmente em menos de 5 minutos. Engenheiros de verdade, não leitores de script. Resolução mediana em menos de 1 hora.

Escolha seu modelo

Modelos de pesos abertos.
A um pull de distância.

Llama 3 para a escolha segura, Mistral para chat geral, Qwen para multilíngue, DeepSeek para código, Gemma para trabalhos com modelos pequenos. Combine como quiser, tudo na mesma NVMe.

Upload de GGUF personalizado disponível em todos os planos
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Modelos compactos da Microsoft

Casos de uso

Por que desenvolvedores escolhem
API de CPU da Cloudzy.

API privada para sua aplicação

Endpoint compatível com OpenAI no seu IP dedicado. Crie recursos de chat, sumarizadores ou agentes sem enviar os prompts dos usuários para terceiros.

Agentes de fundo

Agentes de longa duração que processam e-mails em lote, fazem scraping de sites ou classificam tickets automaticamente não cabem em APIs cobradas por uso. Um servidor com taxa fixa resolve. Agende um job, chame a API, aguarde e repita.

Assistentes de código

Rode DeepSeek-Coder ou Qwen-Coder integrado ao plugin Continue / Tabby do seu editor. Autocomplete rápido, sem custo por sugestão, sem código enviado a fornecedores externos.

Chat hobby e demos de RAG

Suba um modelo, conecte o Open WebUI ou LibreChat, compartilhe um link com amigos. Toda a stack em um único servidor pelo preço de alguns cafés por mês.

Servidores compatíveis com compliance

Dados sensíveis (jurídico, saúde, documentos internos) ficam no seu servidor. Audite acessos com iptables e journald: seu modelo, seu perímetro.

Treine seus próprios fine-tunes

Baixe os pesos base, faça fine-tune em uma máquina GPU, depois publique o GGUF em um servidor de inferência com CPU. Serving barato no dia a dia, gaste mais só quando treinar.

60s
Provisionamento
40 Gbps
Ligação ascendente
Apenas NVMe
Armazenamento
12
Regiões
99.95%
Tempo de funcionamento SLA
14 dias
Reembolso de dinheiro

Rede global

12 regiões. Quatro continentes.
Escolha o seu e suba um modelo.

Coloque seu host de inferência perto dos seus usuários. Latência P50 mediana abaixo de 10 ms na América do Norte e na Europa.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Preços

Pague pelo que usar. É isso.

Por hora, mês ou ano. Sem taxas de saída. Sem fidelidade. Atualmente 50% de desconto todos os planos.

1 GB DDR5

Modelos CPU compactos · 1B–3B

$3.48/mês
$6.95/mo−50%
Implementar agora
14 dias de garantia
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 Dedicado
  • API com um clique
2 GB DDR5

7B / 8B em CPU

$7.475/mês
$14.95/mo−50%
Implementar agora
14 dias de garantia
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 Dedicado
  • API com um clique

FAQ. Servidor de API

Perguntas frequentes respostas diretas.

O que é um Ollama VPS?

Um Ollama VPS é um servidor cloud Cloudzy configurado para executar o Ollama, o runtime local de LLM. Utilize modelos open-source como Llama 3, Mistral, Qwen, DeepSeek ou Gemma; sirva-os por trás da sua própria API compatível com OpenAI; crie aplicações de chat, agentes e ferramentas sem enviar tráfego a um provedor de modelos externo.

O Ollama vem pré-instalado?

O Ollama está disponível como instalação com um clique a partir do painel. Escolha um template Linux, o binário fica disponível no seu PATH e o `ollama pull llama3` funciona em menos de um minuto. A API HTTP escuta na porta 11434 por padrão; vincule-a ao seu IP dedicado por trás de um proxy reverso.

Consigo executar LLMs num VPS apenas com CPU?

Sim, para modelos menores. O Llama 3 8B e o Mistral 7B funcionam num servidor com 16 GB de CPU; o Qwen 0.5B–3B e o Gemma 2B rodam sem problemas com 4 GB. O desempenho depende do tamanho do modelo e do prompt. CPU é mais lento que GPU, mas suficiente para APIs de baixo volume, projetos paralelos e desenvolvimento.

Vocês oferecem planos com GPU para modelos maiores?

Sim. Para modelos da classe 70B ou inferência de alto volume, consulte os nossos planos GPU (RTX 4090, RTX 5090, A100). A 4090 suporta o Llama 3 70B com quantização; a A100 80GB executa modelos grandes em precisão total. Disponível na página de preços.

A API compatível com OpenAI é suportada?

Sim. O Ollama expõe um endpoint `/v1/chat/completions` totalmente compatível com o cliente OpenAI. Aponte a sua aplicação existente para `http://your-vps:11434/v1` e altere o nome do modelo. Mesmo SDK, sem reescrita de código.

Quanto espaço em disco um modelo ocupa?

Depende. Um modelo 7B quantizado a 4 bits ocupa cerca de 4 GB. Um 8B ocupa cerca de 5 GB. Um 70B a 4 bits ocupa ~40 GB. Carregue quantos modelos couberem no seu espaço. Os planos começam em 60 GB de NVMe e vão até 1,5 TB; combine vários modelos num único servidor.

Qual é a velocidade de provisionamento?

Após a confirmação do pagamento, o seu VPS fica ativo em 60 segundos. Com o Ollama instalado com um clique, o runtime está disponível em mais um minuto. O primeiro download de modelo demora um pouco mais (limitado pela rede), mas os seguintes são carregados diretamente da cache no NVMe.

Eu recebo um IP dedicado?

Sim, cada VPS inclui um IPv4 estático dedicado mais IPv6. Aceda à API do Ollama pelo IP dedicado, coloque um proxy reverso Caddy na frente para HTTPS num hostname real, e está pronto. IPs flutuantes também estão disponíveis.

Há cobranças ocultas?

Não. O tráfego de saída está incluído na sua cota mensal de transferência. Snapshots são gratuitos. IPv4 + IPv6 estão incluídos. Acesso root está incluído. Os únicos extras pagos são IPs Flutuantes ($2,50/mês) e snapshots adicionais além da cota gratuita.

Há garantia de reembolso?

Sim, 14 dias a partir da compra, sem perguntas, reembolso integral. Solicite pelo painel ou por e-mail em [email protected].

Pronto quando você precisar.
ollama run, em 60 segundos.

Escolha uma região, clique, carregue um modelo. O seu LLM privado, o seu IP dedicado.

Sem necessidade de cartão de crédito · Garantia de reembolso de 14 dias · Cancele quando quiser