Sconto del 50%. tutti i piani, tempo limitato. A partire da $2.48/mo

Hosting VPS AI

Carichi di lavoro dell'intelligenza artificiale,
scegli la tua forma.

CPU ad alta RAM per inferenza/RAG o GPU di classe NVIDIA per la formazione, stesso pannello VPS.
Cloud indipendente, dal 2008. Da 2,48 $/mese · SSH root in 60 secondi.

4.6 · 706 reviews on Trustpilot

CPU da $2.48/mo · Piani GPU prezzi · Rimborso entro 14 giorni

~ ssh root@ai-nyc-001 collegato
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installazione del runtime di Ollama... completata
root@ai-nyc-001:~# ollama esegue llama3.1:8b-instruct-q4
estrazione del manifest · download di 4,7 GB su NVMe
modello pronto · Avvio dell'inferenza della CPU
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Ciao! Come posso aiutarti oggi?"}
root@ai-nyc-001:~# _

VPS AI in breve

Cloudzy offre hosting VPS AI in due forme, ad alta RAM CPU prevede piani per inferenza LLM quantizzata, RAG e pipeline, oltre a Classe NVIDIA Piani GPU per l'addestramento e la fornitura di modelli di grandi dimensioni. I piani continuano AMD EPYC, Storage NVMe, E 40 Gbps uplink in 12 regioni. La CPU inizia alle 2,48 $ al mese; il provisioning richiede 60 secondi; Le immagini CUDA sono preimpostate sui piani GPU. Da allora Cloudzy ha operato in modo indipendente 2008, serve Oltre 122.000 sviluppatori, ed è valutata 4.6 / 5 by 706+ reviewers su Trustpilot.

La CPU inizia alle
2,48 $ / mese
Tipi di GPU
RTX · Pro
Fornitura
60 secondi
Regioni
12 nel mondo
SLA di uptime
99.95%
Rimborso
14 giorni

Perché gli sviluppatori di intelligenza artificiale scelgono Cloudzy

Una nuvola quella navi AI.

Quattro motivi per cui il tuo carico di lavoro basato sull'intelligenza artificiale rientra in questo contesto.

AMD EPYC + NVMe

Ultimo EPYC per inferenza CPU, NVMe per caricamenti rapidi del modello. GPU dedicate tramite passthrough PCI sui piani GPU.

Rimborso entro 14 giorni

Esegui il tuo test di latenza di inferenza reale su Cloudzy. Se non si adatta al tuo SLO, rimborsalo entro 14 giorni.

Tempo di attività del 99,95%.

Le API AI di produzione necessitano di un host che non si riavvii durante i picchi. SLA degli ultimi 30 giorni monitorato pubblicamente su status.cloudzy.com.

Tecnici in chat

Bloccato su versioni CUDA, errori NCCL o ottimizzazione vLLM? Ingegneri con esperienza nei carichi di lavoro AI, minuti, non ore.

Lo stack dell'IA

Porta qualunque quadro.
Funziona.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, funzionano tutti in modo pulito. Precotto Le immagini CUDA sui piani GPU saltano il ballo del conducente. I piani CPU gestiscono l'inferenza quantizzata e incorporare i lavoratori a basso costo.

Docker + nvidia-container-toolkit pronto per i piani GPU
PyTorch
CPU e GPU
TensorFlow
CPU e GPU
vLLM
Servizio LLM GPU
Ollama
LLM CPU + GPU
Volto che abbraccia
Transformers · Diffusers
pgvettore
Archivio vettoriale RAG
Qdrant
DB vettoriale
LangChain
Struttura dell'agente

Casi d'uso

Su cosa funzionano i team di intelligenza artificiale
Cloudzy.

API di inferenza LLM

Servi LLM quantizzati di classe 7B-70B dietro il tuo endpoint compatibile con OpenAI. vLLM o TGI su GPU, llama.cpp/Ollama su CPU di grandi dimensioni. Fattura i tuoi clienti tramite gettone.

Backend RAG

Postgres + pgvector o Qdrant su un VPS CPU, box GPU opzionale per incorporamento/generazione. NVMe significa che le ricerche dei vettori rimangono scattanti.

Tempi di esecuzione dell'agente

Agenti LangChain o LlamaIndex di lunga durata che colpiscono le API OpenAI/Anthropic e i tuoi dati. L'IP statico mantiene stabili le chiamate agli strumenti.

Generazione di immagini/video

Diffusione stabile, SDXL, ComfyUI, modelli video su GPU di classe RTX. NVMe ti consente di scambiare modelli in pochi secondi, non in minuti.

Fine-tuning e addestramento

LoRA/QLoRA ottimizza l'addestramento completo di parametri di classe RTX su GPU di classe data center. CUDA precotto, NCCL, PyTorch.

Incorporare i lavoratori

Esegui un lavoro di trasformazione delle frasi su un VPS con CPU da 16-32 GB per incorporare milioni di documenti senza pagare tariffe SaaS per chiamata.

60s
Fornitura
40 Gbps
Collegamento in salita
Solo NVMe
Storage
12
Regioni
99.95%
SLA di uptime
14 giorni
Rimborso

Rete globale

12 regioni. Quattro continenti.
Latenza di inferenza, risolta.

Posiziona la tua API AI vicino ai tuoi clienti. Associa un gateway CPU in una regione con un box GPU in un'altra.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Piani di intelligenza artificiale della CPU

LLM quantizzati · RAG · Embedding. La CPU è sufficiente.

Molti carichi di lavoro dell’intelligenza artificiale sono legati alla CPU. Fatturazione oraria · Sconto del 50% su tutti i piani · Piani GPU elencati separatamente su /prezzi.

12 GB DDR5

Backend RAG · DB vettoriale · incorporamenti

$34.98 /mese
$69.95/mo −50%
Distribuisci ora
Rimborso entro 14 giorni
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama/vLLM
  • SSH root · KVM
16 GB DDR5

Inferenza CPU di medie dimensioni · Gateway API

$49.98 /mese
$99.95/mo −50%
Distribuisci ora
Rimborso entro 14 giorni
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama/vLLM
  • SSH root · KVM

Domande frequenti. AI VPS

Domande frequenti, risposte chiare.

Cos’è un VPS AI?

Un VPS AI è un server cloud Linux dimensionato e configurato per carichi di lavoro AI, RAM elevata e core EPYC per inferenza CPU e RAG o GPU di classe NVIDIA per training e servizi di modelli di grandi dimensioni. Accedi tramite SSH, installa il tuo stack ed esegui. Stesso VPS, forme diverse per lavori diversi.

Ho bisogno di una GPU o la CPU funzionerà?

Dipende dal modello. Gli LLM quantizzati di classe 7B (int4/int8 tramite llama.cpp o Ollama) funzionano utilmente su un piano CPU da 16–32 GB. I modelli di incorporamento, i database vettoriali (Qdrant, Weaviate, pgvector) e le pipeline RAG sono per lo più legati alla CPU. Per la formazione, la fornitura di modelli più grandi o qualsiasi cosa che richieda un throughput elevato, è necessario un piano GPU.

Posso eseguire un'API di inferenza dietro un bilanciatore del carico?

SÌ. Esegui vLLM, TGI o il tuo servizio FastAPI su una GPU box, metti un piccolo VPS CPU davanti come gateway API e limitatore di velocità. Entrambi condividono una rete privata nella stessa regione. 40 Gbps significa che il gateway non rappresenta mai il collo di bottiglia.

Posso ospitare un backend RAG?

Sì, ed è una delle forme più comuni. Un VPS CPU da 16–32 GB esegue Postgres + pgvector o Qdrant a buon mercato, puoi chiamare un VPS GPU o un LLM ospitato per la generazione. NVMe rende rapide le query vettoriali, EPYC gestisce il calcolo dell'incorporamento durante l'esecuzione in batch.

Quali framework AI sono supportati?

Tutti quanti. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (sull'hardware appropriato), Hugging Face Transformers, installazione tramite conda, pip o Docker. Immagini CUDA precotte sui piani GPU, root completo su ogni piano.

Le GPU sono condivise?

No. I piani GPU utilizzano il passthrough PCI, l'GPU che prenoti è dedicato alla tua VM, memoria completa e clock completi. CUDA, NVENC, NCCL si comportano tutti come su una scatola di metallo nudo. Classe RTX per inferenza conveniente, classe datacenter per formazione di fascia alta.

Di quanta VRAM ho bisogno?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

C'è la garanzia di rimborso?

Sì, 14 giorni dall'acquisto, rimborso completo, senza fare domande. Esegui il tuo test di latenza di inferenza reale, il tuo benchmark RAG reale e decidi se Cloudzy è adatto prima di impegnarti per un anno.

Quanto è veloce l'attivazione?

Una volta confermato il pagamento, il tuo VPS AI sarà attivo in 60 secondi. CPU o GPU. Le immagini CUDA preimpostate sui piani GPU significano che `nvidia-smi` ritorna in pochi secondi. I piani CPU vengono forniti con Ubuntu LTS o Debian, installa il tuo stack AI tramite conda o pip in pochi minuti.

Posso usarlo in produzione?

SÌ. SLA con tempo di attività del 99,95%, fatturazione oraria, nessun impegno, IP dedicati e l'opzione di scalare RAM/vCPU/storage in tempo reale senza ricompilazione. Molti dei nostri clienti eseguono inferenza AI e API RAG in produzione da Cloudzy.

Pronti quando lo sei tu.
VPS AI in 60 secondi.

Scegli la forma di cui ha bisogno il tuo carico di lavoro. CPU per inferenza/RAG; GPU per l'allenamento. Stesso pannello.

Nessuna carta di credito richiesta · Rimborso entro 14 giorni · Annulla quando vuoi