diskon 50% semua paket, waktu terbatas. Mulai dari $2.48/mo

Hosting VPS AI

Beban kerja AI,
pilih bentukmu.

GPU berkualitas tinggi untuk inferensi / RAG, atau GPU kelas NVIDIA untuk pelatihan, semua dalam satu panel kontrol.
Cloud independen, sejak 2008. Mulai $2,48/bln · akses root SSH dalam 60 detik.

4.6 · 728 reviews on Trustpilot

CPU dari $2.48/mo · Paket GPU di penetapan harga · Garansi uang kembali 14 hari

~ ssh root@ai-nyc-001 terhubung
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Menginstal runtime Ollama... selesai
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
mengambil manifest · mengunduh 4,7 GB ke NVMe
model siap · CPU inferensi dimulai
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Halo! Ada yang bisa saya bantu hari ini?"}
root@ai-nyc-001:~# _

Pandangan sekilas tentang AI VPS

Cloudzy menawarkan hosting AI VPS dalam dua pilihan, paket CPU berperforma tinggi RAM untuk inferensi LLM terkuantisasi, RAG, dan pipeline, serta NVIDIA-class Paket GPU untuk pelatihan model dan inferensi model besar. Paket berjalan di AMD EPYC, Penyimpanan NVMe, dan 40 Gbps tautan lintas 12 wilayah. CPU dimulai dari $2.48 per month; provisioning membutuhkan 60 detik; Image CUDA sudah terpasang di paket GPU. Cloudzy telah beroperasi secara independen sejak 2008, melayani 122,000+ pengembangdan mendapat rating 4.6 / 5 by 728+ reviewers di Trustpilot.

CPU dimulai dari
$2.48 / month
Jenis GPU
RTX · Pro
Penyediaan
60 detik
Wilayah
12 di seluruh dunia
Waktu Aktif SLA
99.95%
Uang kembali
14 hari

Mengapa para developer AI memilih Cloudzy

Awan yang kapal AI.

Empat alasan mengapa workload AI Anda lebih tepat dijalankan di sini.

AMD EPYC + NVMe

EPYC terbaru untuk inferensi CPU, NVMe untuk loading model yang cepat. GPU dedicated via PCI passthrough pada paket GPU.

Uang kembali 14 hari

Jalankan uji latensi inferensi nyata pada Cloudzy. Jika tidak sesuai dengan SLO Anda, minta pengembalian dana dalam 14 hari.

99.95% waktu aktif

AI production APIs butuh host yang tidak reboot saat traffic sedang tinggi. SLA 30 hari terakhir dipantau secara publik di status.cloudzy.com.

Tim engineer di chat

Masalah versi CUDA, error NCCL, atau tuning vLLM? Engineer kami berpengalaman di workload AI — respons dalam hitungan menit, bukan jam.

Tumpukan AI

Pakai framework apa saja.
Ini berjalan.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, semuanya berjalan tanpa hambatan. Image CUDA yang sudah dikonfigurasi di paket GPU menghilangkan kerumitan instalasi driver. Paket CPU menangani inferensi terkuantisasi dan embedding worker dengan biaya lebih hemat.

Docker + nvidia-container-toolkit siap di paket GPU
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
Serving LLM GPU
Ollama
LLM CPU + GPU
Hugging Face
Transformers · Diffusers
pgvector
Penyimpanan vektor RAG
Qdrant
Basis Data Vektor
LangChain
Kerangka kerja agen

Kasus penggunaan

Yang dipakai tim AI
Cloudzy.

Inferensi LLM API

Jalankan LLM kelas 7B–70B yang sudah dikuantisasi di balik endpoint kompatibel OpenAI milik Anda sendiri. vLLM atau TGI di GPU, llama.cpp / Ollama di CPU besar. Tagih pelanggan Anda per token.

Backend RAG

Postgres + pgvector atau Qdrant di VPS CPU, dengan GPU opsional untuk embedding/generation. NVMe membuat pencarian vektor tetap cepat.

Runtime agen

Agen LangChain atau LlamaIndex yang berjalan lama, menghubungi API OpenAI/Anthropic dan data Anda sendiri. IP statis menjaga kestabilan tool-calling.

Generasi gambar / video

Stable Diffusion, SDXL, ComfyUI, dan model video di GPU kelas RTX. NVMe memungkinkan Anda mengganti model dalam hitungan detik, bukan menit.

Penyesuaian & pelatihan

Fine-tune LoRA / QLoRA di kelas RTX, training full-parameter di GPU kelas datacenter. CUDA, NCCL, dan PyTorch sudah terpasang.

Pekerja Embedding

Jalankan worker sentence-transformers di VPS CPU 16–32 GB untuk meng-embed jutaan dokumen tanpa biaya per-panggilan SaaS.

60s
Penyediaan
40 Gbps
Tautan naik
NVMe saja
Penyimpanan
12
Wilayah
99.95%
Waktu Aktif SLA
14 hari
Uang kembali

Jaringan Global

12 region. Empat benua.
Latensi inferensi, beres.

Tempatkan API AI Anda dekat dengan pelanggan. Pasangkan gateway CPU di satu region dengan GPU di region lain.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Rencana CPU AI

LLM terkuantisasi · RAG · Embeddings. CPU sudah cukup.

Banyak beban kerja AI terikat CPU. Tagihan per jam · diskon 50% semua paket · paket GPU tercantum terpisah di /pricing.

12 GB DDR5

Backend RAG · vector DB · embeddings

$34.98 /bln
$69.95/mo −50%
Terapkan sekarang
Uang kembali 14 hari
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Akar SSH · KVM
16 GB DDR5

Inferensi CPU menengah · gateway API

$49.98 /bln
$99.95/mo −50%
Terapkan sekarang
Uang kembali 14 hari
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Akar SSH · KVM

Pertanyaan Umum. AI VPS

Pertanyaan umum jawaban langsung.

Apa itu AI VPS?

VPS AI adalah server cloud Linux yang ukuran dan konfigurasinya disesuaikan untuk beban kerja AI — RAM tinggi dan core EPYC untuk inferensi CPU dan RAG, atau GPU kelas NVIDIA untuk training dan serving model besar. SSH, pasang stack Anda, dan langsung jalankan. VPS yang sama, hadir dalam berbagai bentuk untuk berbagai kebutuhan.

Apakah saya perlu GPU, atau CPU sudah cukup?

Tergantung modelnya. LLM berkelas 7B yang dikuantisasi (int4 / int8 lewat llama.cpp atau Ollama) bisa berjalan dengan baik di paket CPU 16–32 GB. Model embedding, database vektor (Qdrant, Weaviate, pgvector), dan pipeline RAG sebagian besar terikat pada CPU. Untuk pelatihan, serving model besar, atau beban kerja yang butuh throughput tinggi, gunakan paket GPU.

Bisakah saya menjalankan API inference di belakang load balancer?

Bisa. Jalankan vLLM, TGI, atau layanan FastAPI Anda sendiri di server GPU, lalu tempatkan VPS CPU kecil di depannya sebagai gateway API sekaligus rate limiter. Keduanya berbagi jaringan privat dalam satu region. Dengan 40 Gbps, gateway tidak akan pernah menjadi bottleneck.

Bisakah saya hosting backend RAG?

Bisa, dan ini salah satu konfigurasi yang paling umum. VPS CPU 16–32 GB menjalankan Postgres + pgvector atau Qdrant dengan biaya rendah, lalu memanggil VPS GPU atau LLM yang di-hosting untuk tahap generation. NVMe membuat kueri vektor terasa cepat, EPYC menangani komputasi embedding saat Anda melakukan batch.

Framework AI apa saja yang didukung?

Semuanya. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (pada hardware yang sesuai), Hugging Face Transformers — install lewat conda, pip, atau Docker. Image CUDA siap pakai tersedia di paket GPU, akses root penuh di setiap paket.

Apakah GPU-nya shared?

Tidak. Paket GPU menggunakan PCI passthrough — GPU yang Anda pesan didedikasikan untuk VM Anda, dengan memori penuh dan clock penuh. CUDA, NVENC, dan NCCL berperilaku sama seperti di server bare-metal. Kelas RTX untuk inference yang hemat biaya, kelas datacenter untuk pelatihan berskala besar.

Berapa banyak VRAM yang saya butuhkan?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Apakah ada jaminan uang kembali?

Ya, 14 hari sejak pembelian, refund penuh, tanpa pertanyaan. Jalankan uji latensi inference sungguhan Anda, benchmark RAG sungguhan Anda, dan tentukan apakah Cloudzy cocok sebelum berkomitmen untuk setahun.

Seberapa cepat proses provisioningnya?

Setelah pembayaran dikonfirmasi, VPS AI Anda aktif dalam 60 detik. CPU maupun GPU. Image CUDA siap pakai di paket GPU membuat `nvidia-smi` langsung merespons dalam hitungan detik. Paket CPU sudah dilengkapi Ubuntu LTS atau Debian — install stack AI Anda lewat conda atau pip dalam beberapa menit.

Bisakah ini digunakan di production?

Bisa. SLA uptime 99,95%, penagihan per jam, tanpa komitmen jangka panjang, IP dedicated, serta opsi untuk menaikkan RAM/vCPU/storage secara langsung tanpa perlu rebuild. Banyak pelanggan kami menjalankan inference AI dan API RAG di production dari Cloudzy.

Siap saat kamu siap.
AI VPS dalam 60 detik.

Pilih konfigurasi yang sesuai dengan kebutuhan beban kerja Anda. CPU untuk inference / RAG; GPU untuk pelatihan. Panel yang sama.

Tidak perlu kartu kredit · Garansi uang kembali 14 hari · Batalkan kapan saja