50% di sconto tutti i piani, offerta a tempo limitato. A partire da $2.48/mo

Hosting VPS per l'IA

Carichi di lavoro dell'IA,
scegli la tua configurazione.

GPU di fascia alta RAM CPU per inferenza / RAG, o GPU di classe NVIDIA GPU per il training, tutto dallo stesso pannello VPS.
Cloud indipendente, dal 2008. Da $2.48/mese · accesso root SSH in 60 secondi.

4.6 · 728 reviews on Trustpilot

CPU da $2.48/mo · Piani GPU su prezzi · Rimborso garantito entro 14 giorni

~ ssh root@ai-nyc-001 connesso
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installazione del runtime Ollama... completata
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
download manifest in corso · scaricamento di 4,7 GB su NVMe
modello pronto · CPU inferenza in avvio
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Ciao! Come posso aiutarti oggi?"}
root@ai-nyc-001:~# _

Panoramica su VPS per l'intelligenza artificiale

Cloudzy offre hosting AI VPS in due formati: piani CPU ad alte prestazioni RAM per inferenza quantizzata LLM, RAG e pipeline, più NVIDIA-class Piani GPU per il training e l'inferenza di modelli di grandi dimensioni. I piani girano su AMD EPYC, Archiviazione NVMe, e 40 Gbps link in parallelo 12 regioni. CPU inizia da $2.48 per month; il provisioning richiede 60 secondi; Le immagini CUDA sono preinstallate sui piani GPU. Cloudzy opera in modo indipendente dal 2008, serve 122.000+ sviluppatori, e ha un rating di 4.6 / 5 by 728+ reviewers su Trustpilot.

CPU inizia da
$2.48 / month
tipi di GPU
RTX · Pro
Provisioning
60 secondi
Regioni
12 in tutto il mondo
Tempo di attività SLA
99.95%
Rimborso del denaro
14 giorni

Perché gli sviluppatori AI scelgono Cloudzy

Una nuvola che ships AI.

Quattro motivi per cui i tuoi workload AI appartengono qui.

AMD EPYC + NVMe

GPU EPYC per inferenza CPU, NVMe per caricamenti rapidi dei modelli. GPU GPU dedicata tramite PCI passthrough nei piani GPU.

Rimborso entro 14 giorni

Esegui il tuo test reale di latenza di inferenza su Cloudzy. Se non rientra nel tuo SLO, rimborso entro 14 giorni.

99.95% di disponibilità

Le AI in produzione hanno bisogno di un host che non vada in riavvio nei momenti di punta. L'uptime degli ultimi 30 giorni è monitorato pubblicamente su status.cloudzy.com.

Ingegneri in chat

Problemi con versioni di CUDA, errori NCCL o tuning di vLLM? Ingegneri con esperienza su carichi di lavoro AI, in minuti non in ore.

Lo stack di intelligenza artificiale

Usa il framework che preferisci.
Funziona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, tutto funziona senza problemi. Le immagini CUDA preconfigurate sui piani GPU eliminano la configurazione manuale dei driver. I piani CPU gestiscono l'inferenza quantizzata e i worker di embedding a costi contenuti.

Docker + nvidia-container-toolkit pronto sui piani GPU
PyTorch
CPU e GPU
TensorFlow
CPU e GPU
vLLM
Servizio GPU LLM
Ollama
CPU + GPU LLM
Hugging Face
Transformers · Diffusers
pgvector
Archivio vettoriale RAG
Qdrant
Database Vettoriale
LangChain
Framework di agenti

Casi d'uso

Su cosa girano i team AI
Cloudzy.

Inferenza LLM API

Esegui modelli quantizzati da 7B a 70B parametri dietro un endpoint compatibile con OpenAI. vLLM o TGI su GPU, llama.cpp / Ollama su CPU di grandi dimensioni. Fattura i tuoi clienti a token.

Backend RAG

Postgres + pgvector o Qdrant su un CPU VPS, con un box GPU opzionale per embedding e generazione. NVMe garantisce ricerche vettoriali veloci.

Ambienti di esecuzione agente

Agenti LangChain o LlamaIndex a lunga esecuzione che chiamano le API OpenAI/Anthropic API e i tuoi dati. Un IP statico mantiene stabile il tool-calling.

Generazione di immagini e video

Stable Diffusion, SDXL, ComfyUI, modelli video su GPU di classe RTX. NVMe ti permette di cambiare modello in secondi, non in minuti.

Fine-tuning e training

Fine-tuning LoRA / QLoRA su GPU RTX, addestramento completo dei parametri su GPU datacenter GPUs. CUDA, NCCL e PyTorch preinstallati.

Worker incorporati

Esegui un worker sentence-transformers su una macchina con 16–32 GB CPU VPS per indicizzare milioni di documenti senza pagare tariffe SaaS a chiamata.

60s
Provisioning
40 Gbps
Collegamento ascendente
Solo NVMe
Archiviazione
12
Regioni
99.95%
Tempo di attività SLA
14 giorni
Rimborso del denaro

Rete globale

12 regioni. Quattro continenti.
Latenza di inferenza, risolta.

Avvicina il tuo AI API ai tuoi clienti. Abbina un gateway CPU in una region a un server GPU in un'altra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Piani CPU per l'IA

Modelli LLM quantizzati · RAG · Embeddings. CPU è sufficiente.

Molti workload AI sono limitati da CPU. Fatturazione oraria · 50% di sconto su tutti i piani · I piani GPU sono elencati separatamente su /pricing.

12 GB DDR5

Backend RAG · database vettoriale · embeddings

$34.98 /mese
$69.95/mo −50%
Distribuisci ora
Rimborso entro 14 giorni
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

Inferenza mid-size CPU · gateway API

$49.98 /mese
$99.95/mo −50%
Distribuisci ora
Rimborso entro 14 giorni
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

Domande frequenti. AI VPS

Domande frequenti, risposte dirette.

Cos'è un AI VPS?

Un AI VPS è un server cloud Linux dimensionato e configurato per workload AI: RAM elevata e core EPYC per inferenza CPU e RAG, oppure GPU di classe NVIDIA per training e serving di modelli grandi. Accedi con SSH, installi il tuo stack e parti. Stesso VPS, forme diverse per esigenze diverse.

Ho bisogno di un GPU, o va bene anche CPU?

Dipende dal modello. I modelli LLM quantizzati della classe 7B (int4 / int8 tramite llama.cpp o Ollama) girano bene su un piano CPU da 16–32 GB. I modelli di embedding, i database vettoriali (Qdrant, Weaviate, pgvector) e le pipeline RAG sono per lo più limitati dalla CPU. Per il training, il serving di modelli più grandi o qualsiasi carico di lavoro ad alto throughput, serve un piano GPU.

Posso eseguire un'inferenza API dietro un load balancer?

Sì. Esegui vLLM, TGI o il tuo servizio FastAPI su una macchina GPU, poi metti un piccolo CPU VPS davanti come gateway API e rate limiter. Entrambi condividono una rete privata nella stessa region. Con 40 Gbps il gateway non diventa mai il collo di bottiglia.

Posso ospitare un backend RAG?

Sì, ed è una delle configurazioni più comuni. Un CPU VPS da 16–32 GB esegue Postgres + pgvector o Qdrant a costi contenuti, mentre per la generazione chiami un GPU VPS separato o un LLM hosted. NVMe rende le query vettoriali veloci, EPYC gestisce il calcolo degli embedding quando lavori in batch.

Quali framework AI sono supportati?

Tutti quanti. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (sull'hardware appropriato), Hugging Face Transformers, installazione via conda, pip o Docker. Immagini CUDA preconfigurate sui piani GPU, accesso root completo su ogni piano.

Gli GPU sono condivisi?

No. I piani GPU usano il PCI passthrough: la GPU che prenoti è dedicata alla tua VM, con memoria completa e clock completi. CUDA, NVENC e NCCL si comportano esattamente come su un server bare-metal. GPU di classe RTX per inference conveniente, GPU di classe datacenter per training ad alte prestazioni.

Di quanta VRAM ho bisogno?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

È prevista una garanzia di rimborso?

Sì, hai 14 giorni dall'acquisto per richiedere un rimborso completo, senza dover dare spiegazioni. Esegui i tuoi test di latenza di inferenza e i tuoi benchmark RAG reali, e valuta se Cloudzy fa al caso tuo prima di impegnarti per un anno.

Quanto è veloce il provisioning?

Una volta confermato il pagamento, il tuo AI VPS è operativo in 60 secondi. CPU o GPU. Le immagini CUDA preconfigurate nei piani GPU fanno sì che `nvidia-smi` risponda in pochi secondi. I piani CPU includono Ubuntu LTS o Debian: installa il tuo stack AI tramite conda o pip in pochi minuti.

Posso usarlo in produzione?

Sì. Uptime garantito al 99,95% SLA, fatturazione oraria, nessun vincolo contrattuale, IP dedicati e la possibilità di aumentare RAM/vCPU/storage senza dover ricostruire l'istanza. Molti dei nostri clienti eseguono workload di AI inference e RAG API in produzione partendo da Cloudzy.

Pronta quando lo sei tu.
AI VPS in 60 secondi.

Scegli la configurazione adatta al tuo carico di lavoro. CPU per inferenza e RAG; GPU per il training. Stesso pannello.

Nessuna carta di credito richiesta · Garanzia soddisfatti o rimborsati di 14 giorni · Disdici quando vuoi