Saltar para o conteúdo principal
50% de desconto todos os planos, tempo limitado. A partir de $2.48/mo

Hospedagem Ollama VPS

Execute open-source
LLMs no seu VPS.

Pronto para Ollama no VPS mais recente e com NVMe puro.
Independente desde 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, tudo sob o seu IP.

4.7 · 755 reviews on Trustpilot

A partir de $2.48/mo · 50% de desconto · Sem cartão de crédito

~ ssh root@ollama-lon-001 conectado
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS em resumo

Cloudzy hospeda OllamaVPSs prontos a partir de 13 regiões na América do Norte, Europa, Médio Oriente e Ásia, a partir de $2.48 per month. Os planos vão de 512 MB to 64 GB DDR5, todos em Armazenamento NVMe com 40 Gbps uplinks Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma e sirva-os atrás de um API compatível com OpenAIServidores provisionados em 60 segundos. Cloudzy has operated independently since 2008 e está classificada com 4.7 / 5 by 755+ reviewers no Trustpilot.

Preço inicial
$2.48 / month
Provisionamento
60 segundos
Regiões
13 em todo o mundo
SLA de uptime
99.95%
Reembolso de dinheiro
14 dias
Fundado
2008

Porque os programadores escolhem a Cloudzy

Um host LLM favorito

As quatro coisas que os compradores realmente comparam, feitas como deve ser.

Otimizado para inferência

Storage apenas NVMe, memória DDR5, uplinks de 40 Gbps. Os pesos do modelo carregam da NVMe em segundos — sem disco lento travando sua primeira resposta.

Teste sem risco

Garantia de devolução do dinheiro em 14 dias em todos os planos. Sem perguntas. Sem taxas de configuração. Cancele a partir do painel a qualquer momento.

SLA de uptime 99,95%

Monitorização automatizada em 13 regiões. O SLA dos últimos 30 dias é seguido publicamente em status.cloudzy.com, sem se esconder atrás de relações públicas.

Suporte humano 24/7

Respostas no chat e em tickets em menos de 5 minutos. Engenheiros, não leitores de scripts. Resolução média em menos de 1 hora.

Escolha seu modelo

Modelos de pesos abertos.
A um pull de distância.

Llama 3 para a escolha segura, Mistral para chat geral, Qwen para multilíngue, DeepSeek para código, Gemma para trabalhos com modelos pequenos. Combine como quiser, tudo na mesma NVMe.

Upload de GGUF personalizado disponível em todos os planos
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Modelos compactos da Microsoft

Casos de uso

Porque os programadores escolhem
API de CPU da Cloudzy.

API privada para sua aplicação

Endpoint compatível com OpenAI no seu IP dedicado. Crie recursos de chat, sumarizadores ou agentes sem enviar os prompts dos usuários para terceiros.

Agentes de fundo

Agentes de longa duração que processam e-mails em lote, fazem scraping de sites ou classificam tickets automaticamente não cabem em APIs cobradas por uso. Um servidor com taxa fixa resolve. Agende um job, chame a API, aguarde e repita.

Assistentes de código

Rode DeepSeek-Coder ou Qwen-Coder integrado ao plugin Continue / Tabby do seu editor. Autocomplete rápido, sem custo por sugestão, sem código enviado a fornecedores externos.

Chat hobby e demos de RAG

Suba um modelo, conecte o Open WebUI ou LibreChat, compartilhe um link com amigos. Toda a stack em um único servidor pelo preço de alguns cafés por mês.

Servidores compatíveis com compliance

Dados sensíveis (jurídico, saúde, documentos internos) ficam no seu servidor. Audite acessos com iptables e journald: seu modelo, seu perímetro.

Treine seus próprios fine-tunes

Baixe os pesos base, faça fine-tune em uma máquina GPU, depois publique o GGUF em um servidor de inferência com CPU. Serving barato no dia a dia, gaste mais só quando treinar.

60s
Provisionamento
40 Gbps
Ligação ascendente
Apenas NVMe
Armazenamento
13
Regiões
99.95%
SLA de uptime
14 days
Reembolso de dinheiro

Rede global

13 regiões. Quatro continentes.
Escolha o seu e suba um modelo.

Coloque seu host de inferência perto dos seus usuários. Latência P50 mediana abaixo de 10 ms na América do Norte e na Europa.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Preços

Pague apenas pelo que usa. É isso.

À hora, ao mês ou ao ano. Sem taxas de saída. Sem compromissos. Atualmente 50% de desconto todos os planos.

1 GB DDR5

Modelos CPU compactos · 1B–3B

$3.48 /mo
$6.95/mo −50%
Implantar agora
Reembolso em 14 dias
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 dedicados
  • API com um clique
2 GB DDR5

7B / 8B em CPU

$7.475 /mo
$14.95/mo −50%
Implantar agora
Reembolso em 14 dias
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 dedicados
  • API com um clique

FAQ. Servidor de API

Perguntas comuns, respostas diretas.

O que é um Ollama VPS?

Um Ollama VPS é um servidor cloud Cloudzy configurado para executar o Ollama, o runtime local de LLM. Utilize modelos open-source como Llama 3, Mistral, Qwen, DeepSeek ou Gemma; sirva-os por trás da sua própria API compatível com OpenAI; crie aplicações de chat, agentes e ferramentas sem enviar tráfego a um provedor de modelos externo.

O Ollama vem pré-instalado?

O Ollama está disponível como instalação com um clique a partir do painel. Escolha um template Linux, o binário fica disponível no seu PATH e o `ollama pull llama3` funciona em menos de um minuto. A API HTTP escuta na porta 11434 por padrão; vincule-a ao seu IP dedicado por trás de um proxy reverso.

Consigo executar LLMs num VPS apenas com CPU?

Sim, para modelos menores. O Llama 3 8B e o Mistral 7B funcionam num servidor com 16 GB de CPU; o Qwen 0.5B–3B e o Gemma 2B rodam sem problemas com 4 GB. O desempenho depende do tamanho do modelo e do prompt. CPU é mais lento que GPU, mas suficiente para APIs de baixo volume, projetos paralelos e desenvolvimento.

Vocês oferecem planos com GPU para modelos maiores?

Sim. Para modelos da classe 70B ou inferência de alto volume, consulte os nossos planos GPU (RTX 4090, RTX 5090, A100). A 4090 suporta o Llama 3 70B com quantização; a A100 80GB executa modelos grandes em precisão total. Disponível na página de preços.

A API compatível com OpenAI é suportada?

Sim. O Ollama expõe um endpoint `/v1/chat/completions` totalmente compatível com o cliente OpenAI. Aponte a sua aplicação existente para `http://your-vps:11434/v1` e altere o nome do modelo. Mesmo SDK, sem reescrita de código.

Quanto espaço em disco um modelo ocupa?

Depende. Um modelo 7B quantizado a 4 bits ocupa cerca de 4 GB. Um 8B ocupa cerca de 5 GB. Um 70B a 4 bits ocupa ~40 GB. Carregue quantos modelos couberem no seu espaço. Os planos começam em 60 GB de NVMe e vão até 1,5 TB; combine vários modelos num único servidor.

Quão rápido é o provisionamento?

Após a confirmação do pagamento, o seu VPS fica ativo em 60 segundos. Com o Ollama instalado com um clique, o runtime está disponível em mais um minuto. O primeiro download de modelo demora um pouco mais (limitado pela rede), mas os seguintes são carregados diretamente da cache no NVMe.

Recebo um IP dedicado?

Sim, cada VPS inclui um IPv4 estático dedicado mais IPv6. Aceda à API do Ollama pelo IP dedicado, coloque um proxy reverso Caddy na frente para HTTPS num hostname real, e está pronto. IPs flutuantes também estão disponíveis.

Existem taxas ocultas?

Não. O tráfego de saída está incluído na sua quota mensal de transferência. Os snapshots são gratuitos. IPv4 + IPv6 estão incluídos. O acesso root está incluído. Os únicos extras pagos são IPs flutuantes ($2,50/mês) e snapshots adicionais além da quota gratuita.

Existe garantia de reembolso?

Sim, 14 dias após a compra, sem perguntas, reembolso total. Solicite no painel ou envie email para [email protected].

Prontos quando você estiver.
ollama run, em 60 segundos.

Escolha uma região, clique, carregue um modelo. O seu LLM privado, o seu IP dedicado.

Sem cartão de crédito · garantia de reembolso em 14 dias · cancele quando quiser