50% di sconto tutti i piani, offerta a tempo limitato. A partire da $2.48/mo

Ollama Hosting VPS

Esegui open-source
LLMs sul tuo VPS.

Pronto per Ollama su AMD EPYC di ultima generazione e NVMe puro.
Indipendente dal 2008. Lama, Mistral, Qwen, DeepSeek, Gemma, tutto sotto il tuo IP.

4.6· 735 reviews on Trustpilot

A partire da $2.48/mo · 50% di sconto · Nessuna carta di credito richiesta

~ ssh root@ollama-lon-001connesso
root@ollama-lon-001:~# ollama pull llama3
recupero del manifest in corso... download del modello 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "Cos'è un VPS?"
Un VPS, o Virtual Private Server, è un ambiente virtualizzato
ambiente di elaborazione con sistema operativo dedicato e risorse proprie
risorse ospitate nel cloud...
root@ollama-lon-001:~# _

Ollama VPS in sintesi

Cloudzy ospita OllamaVPS pronti per -ready a partire da 12 regioni tra Nord America, Europa, Medio Oriente e Asia, a partire da $2.48 per month. I piani partono da 512 MB to 64 GB DDR5, tutti su Archiviazione NVMe con 40 Gbps uplink. Ollama si installa in un clic; scarica Llama 3, Mistral, Qwen, DeepSeek, Gemma e distribuirli tramite un API compatibile con OpenAIServers provision in 60 secondi. Cloudzy opera in modo indipendente dal 2008 e ha un rating 4.6 / 5 by 735+ reviewers su Trustpilot.

Prezzo di partenza
$2.48 / month
Provisioning
60 secondi
Regioni
12 in tutto il mondo
Tempo di attività SLA
99.95%
Rimborso del denaro
14 giorni
Fondato
2008

Perché gli sviluppatori scelgono Cloudzy

Un host LLM preferito

I quattro aspetti su cui i clienti ci confrontano davvero. Eccoli, fatti bene.

Ottimizzato per l'inferenza

Solo storage NVMe, memoria DDR5, uplink da 40 Gbps. I pesi del modello si caricano da NVMe in pochi secondi: nessun disco lento che rallenta la prima risposta.

Prova senza rischi

Garanzia soddisfatti o rimborsati di 14 giorni su ogni piano. Nessuna domanda, nessun costo di attivazione. Disdici dal dashboard in qualsiasi momento.

Disponibilità del 99,95% SLA

Monitoraggio automatico in 12 regioni. L'uptime degli ultimi 30 giorni SLA è pubblicamente consultabile su status.cloudzy.com, senza niente da nascondere.

Supporto umano 24/7

Chat in tempo reale e risposte ai ticket in meno di 5 minuti. Tecnici veri, non operatori da copione. Tempo medio di risoluzione sotto l'ora.

Scegli il tuo modello

Modelli open-weight.
A un pull di distanza.

Llama 3 per la scelta sicura, Mistral per la chat generale, Qwen per il multilingue, DeepSeek per il codice, Gemma per i task CPU leggeri. Combinali come vuoi, tutti sullo stesso NVMe.

Upload di GGUF personalizzati supportato su ogni piano
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Modelli Microsoft compact

Casi d'uso

Perché gli sviluppatori scelgono
Ollama VPS di Cloudzy.

API privata per la tua app

Endpoint compatibile con OpenAI sul tuo IP dedicato. Costruisci funzionalità di chat, riassuntori o agenti senza inviare i prompt degli utenti a provider terzi.

Agenti di sfondo

Gli agenti a lunga esecuzione che elaborano email in batch, fanno scraping di siti o taggano ticket automaticamente non si adattano alle API a consumo. Un VPS a tariffa fissa sì. Pianifica un job con cron, chiama Ollama, aspetta, ripeti.

Assistenti di codice

Esegui DeepSeek-Coder o Qwen-Coder dietro il plugin Continue o Tabby del tuo editor. Autocomplete reattivo, nessun costo per suggerimento, nessun codice inviato a vendor esterni.

Chat hobby e demo RAG

Carica un modello, collega Open WebUI o LibreChat, condividi il link con gli amici. Tutto lo stack su un unico VPS al costo di qualche caffè al mese.

LLM adatte alla compliance

I dati sensibili (documenti legali, sanitari, interni) restano sul tuo VPS. Controlla gli accessi con iptables e journald: il tuo modello, il tuo perimetro.

Crea i tuoi fine-tune

Scarica i pesi base, fai il fine-tuning su una macchina GPU, distribuisci il GGUF su un VPS Ollama CPU per l'inferenza. Serving economico nei giorni feriali, spendi di più solo quando alleni.

60s
Provisioning
40 Gbps
Collegamento ascendente
Solo NVMe
Archiviazione
12
Regioni
99.95%
Tempo di attività SLA
14 giorni
Rimborso del denaro

Rete globale

12 regioni. Quattro continenti.
Scegli il tuo, carica un modello.

Posiziona il tuo host di inferenza vicino agli utenti. Latenza mediana P50 sotto i 10 ms in Nord America e in Europa.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Prezzi

Paghi solo quello che usi. Ecco fatto.

Ogni ora, mese o anno. Senza costi di trasferimento. Senza vincoli. Attualmente 50% di sconto tutti i piani.

1 GB DDR5

Modelli CPU leggeri · 1B–3B

$3.48/mese
$6.95/mo−50%
Distribuisci ora
Rimborso entro 14 giorni
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 dedicato
  • Ollama con un clic
2 GB DDR5

7B / 8B su CPU

$7.475/mese
$14.95/mo−50%
Distribuisci ora
Rimborso entro 14 giorni
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 dedicato
  • Ollama con un clic

Domande frequenti. Ollama VPS

Domande frequenti, risposte dirette.

Cos'è un Ollama VPS?

Un Ollama VPS è un server cloud Cloudzy configurato per eseguire Ollama, il runtime LLM locale. Scarica modelli open source come Llama 3, Mistral, Qwen, DeepSeek o Gemma; servili tramite la tua API compatibile con OpenAI; crea app di chat, agenti e strumenti senza inviare traffico a provider di modelli di terze parti.

Ollama è preinstallato?

Ollama è disponibile con installazione in un clic dal pannello. Scegli un template Linux, il binario viene aggiunto al tuo PATH e `ollama pull llama3` funziona nel giro di un minuto. L'API HTTP è in ascolto sulla porta 11434 per impostazione predefinita; associalo al tuo IP dedicato dietro un reverse proxy.

Posso eseguire LLM su un VPS solo CPU?

Sì, per i modelli più piccoli. Llama 3 8B e Mistral 7B girano su una macchina CPU da 16 GB; Qwen 0.5B–3B e Gemma 2B girano senza problemi su 4 GB. La velocità dipende dalla dimensione del modello e dal prompt: CPU è più lento di GPU, ma va bene per API a basso volume, progetti secondari e sviluppo.

Offrite piani GPU per modelli più grandi?

Sì. Per modelli da 70B o inferenza ad alto throughput, consulta i nostri piani GPU (RTX 4090, RTX 5090, A100). La 4090 gestisce Llama 3 70B con quantizzazione; A100 80GB esegue modelli grandi a piena precisione. Trovi i link nella pagina dei prezzi.

L'API compatibile con OpenAI è supportata?

Sì. Ollama espone un endpoint `/v1/chat/completions` compatibile in modo nativo con il client OpenAI. Punta la tua app su `http://your-vps:11434/v1` e cambia il nome del modello. Stesso SDK, nessuna riscrittura.

Quanto spazio occupa un modello?

Dipende. Un modello 7B quantizzato a 4 bit è circa 4 GB. Un 8B è circa 5 GB. Un 70B a 4 bit è circa 40 GB. Scarica tutti i modelli che vuoi in base allo spazio disponibile. I piani partono da 60 GB NVMe e arrivano a 1,5 TB: puoi combinare più modelli sulla stessa macchina.

Quanto è veloce il provisioning?

Una volta confermato il pagamento, il tuo VPS è attivo in 60 secondi. Con l'installazione in un clic di Ollama, il runtime è pronto in un altro minuto. Il primo download del modello richiede più tempo (dipende dalla rete), ma i successivi vengono serviti dalla cache su NVMe.

Ottengo un IP dedicato?

Sì, ogni VPS include un IPv4 statico dedicato più IPv6. Raggiungi l'API di Ollama tramite l'IP dedicato, metti davanti un reverse proxy Caddy per HTTPS su un hostname reale, e il gioco è fatto. Sono disponibili anche IP fluttuanti.

Ci sono costi nascosti?

No. Il traffico in uscita è incluso nella quota di trasferimento mensile. Gli snapshot sono gratuiti. IPv4 + IPv6 sono inclusi. L'accesso root è incluso. Gli unici extra a pagamento sono gli IP Floating (2,50 $/mese) e gli snapshot aggiuntivi oltre la quota gratuita.

È prevista una garanzia di rimborso?

Sì, 14 giorni dall'acquisto, rimborso completo senza domande. Richiedilo dal pannello o scrivendo a [email protected].

Pronta quando lo sei tu.
ollama run, in 60 secondi.

Scegli una regione, clicca, scarica un modello. Il tuo LLM privato, il tuo IP dedicato.

Nessuna carta di credito richiesta · Garanzia soddisfatti o rimborsati di 14 giorni · Disdici quando vuoi