Diskon 50%. semua paket, waktu terbatas. Mulai dari $2.48/mo

Hosting VPS AI

beban kerja AI,
pilih bentukmu.

CPU RAM tinggi untuk inferensi / RAG, atau GPU kelas NVIDIA untuk pelatihan, panel VPS yang sama.
Cloud independen, sejak 2008. Mulai $2,48/bln · root SSH dalam 60 detik.

4.6 · 708 reviews on Trustpilot

CPU dari $2.48/mo · GPU berencana aktif penetapan harga · Uang kembali 14 hari

~ ssh root@ai-nyc-001 terhubung
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Menginstal runtime Ollama... selesai
root@ai-nyc-001:~# ollama jalankan llama3.1:8b-instruct-q4
menarik manifes · mengunduh 4,7 GB ke NVMe
model siap · Inferensi CPU dimulai
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Halo! Ada yang bisa saya bantu hari ini?"}
root@ai-nyc-001:~# _

Sekilas tentang AI VPS

Cloudzy menawarkan hosting AI VPS dalam dua bentuk, RAM tinggi CPU berencana untuk inferensi LLM terkuantisasi, RAG, dan saluran pipa, plus kelas NVIDIA Rencana GPU untuk pelatihan dan penyajian model besar. Rencana berjalan terus AMD EPYC, Penyimpanan NVMe, Dan 40 Gbps uplink di 12 region. CPU dimulai pada $2,48 per bulan; penyediaan diperlukan 60 detik; Gambar CUDA sudah dibuat sebelumnya pada paket GPU. Cloudzy telah beroperasi secara independen sejak saat itu 2008, melayani 122.000+ developer, dan dinilai 4.6 / 5 by 708+ reviewers di Trustpilot.

CPU dimulai pada
$2,48 / bulan
Jenis GPU
RTX · Pro
Penyediaan
60 detik
Daerah
12 di seluruh dunia
Uptime SLA
99.95%
Uang kembali
14 hari

Mengapa pengembang AI memilih Cloudzy

Awan itu kapal AI.

Empat alasan mengapa beban kerja AI Anda ada di sini.

AMD EPYC + NVMe

EPYC terbaru untuk inferensi CPU, NVMe untuk pemuatan model cepat. GPU khusus melalui PCI passthrough pada paket GPU.

Garansi uang kembali 14 hari

Jalankan uji latensi inferensi Anda yang sebenarnya di Cloudzy. Jika tidak sesuai dengan SLO Anda, lakukan pengembalian dana dalam waktu 14 hari.

Waktu aktif 99,95%.

API AI Produksi memerlukan host yang tidak melakukan boot ulang selama jam sibuk. SLA 30 hari terakhir dilacak secara publik di status.cloudzy.com.

Engineer di chat

Terjebak pada versi CUDA, kesalahan NCCL, atau penyetelan vLLM? Insinyur dengan pengalaman beban kerja AI, dalam hitungan menit, bukan jam.

Tumpukan AI

Bawa kerangka apa pun.
Ini berjalan.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, semuanya berjalan dengan bersih. Dipanggang sebelumnya Gambar CUDA pada paket GPU melewatkan tarian pengemudi. Paket CPU menangani inferensi terkuantisasi dan menyematkan pekerja dengan murah.

Docker + nvidia-container-toolkit siap pada paket GPU
PyTorch
CPU & GPU
Aliran Tensor
CPU & GPU
vLLM
Penyajian GPU LLM
Ollama
LLM CPU + GPU
Memeluk Wajah
Transformer · Diffuser
vektor pg
Penyimpanan vektor RAG
Qdrant
Vektor DB
LangChain
Kerangka agen

Kasus penggunaan

Apa yang dijalankan oleh tim AI
Cloudzy.

API inferensi LLM

Sajikan LLM kelas 7B–70B yang terkuantisasi di belakang titik akhir Anda yang kompatibel dengan OpenAI. vLLM atau TGI pada GPU, llama.cpp / Ollama pada CPU besar. Tagih pelanggan Anda dengan token.

backend RAG

Postgres + pgvector atau Qdrant pada CPU VPS, kotak GPU opsional untuk penyematan/pembuatan. NVMe berarti pencarian vektor tetap cepat.

Waktu proses agen

Agen LangChain atau LlamaIndex yang sudah berjalan lama dan menggunakan OpenAI/Anthropic API dan data Anda sendiri. IP statis menjaga pemanggilan alat tetap stabil.

Pembuatan gambar/video

Difusi Stabil, SDXL, ComfyUI, model video pada GPU kelas RTX. NVMe memungkinkan Anda menukar model dalam hitungan detik, bukan menit.

Penyempurnaan & pelatihan

LoRA / QLoRA menyempurnakan pelatihan parameter lengkap kelas RTX pada GPU kelas pusat data. CUDA, NCCL, PyTorch yang sudah dipanggang sebelumnya.

Menanamkan pekerja

Jalankan pekerja pengubah kalimat pada VPS CPU 16–32 GB untuk menyematkan jutaan dokumen tanpa membayar tarif SaaS per panggilan.

60s
Penyediaan
40 Gbps
Tautan ke atas
Khusus NVMe
Penyimpanan
12
Daerah
99.95%
Uptime SLA
14 hari
Uang kembali

Jaringan global

12 region. Empat benua.
Latensi inferensi, terpecahkan.

Tempatkan AI API Anda dekat dengan pelanggan Anda. Pasangkan gateway CPU di satu wilayah dengan kotak GPU di wilayah lain.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

rencana CPU AI

LLM terkuantisasi · RAG · Embeddings. CPU sudah cukup.

Banyak beban kerja AI terikat pada CPU. Penagihan per jam · Diskon 50% untuk semua paket · Paket GPU dicantumkan secara terpisah / harga.

12 GB DDR5

Backend RAG · DB vektor · penyematan

$34.98 /bln
$69.95/mo −50%
Deploy sekarang
Garansi uang kembali 14 hari
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM
16 GB DDR5

Inferensi CPU ukuran menengah · Gerbang API

$49.98 /bln
$99.95/mo −50%
Deploy sekarang
Garansi uang kembali 14 hari
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM

Pertanyaan Umum. AI VPS

Pertanyaan umum, jawaban lugas.

Apa itu AI VPS?

AI VPS adalah server cloud Linux berukuran dan dikonfigurasi untuk beban kerja AI, RAM tinggi, dan inti EPYC untuk inferensi dan RAG CPU, atau GPU kelas NVIDIA untuk pelatihan dan penyajian model besar. Anda SSH masuk, instal tumpukan Anda, dan jalankan. VPS yang sama, bentuk berbeda untuk pekerjaan berbeda.

Apakah saya memerlukan GPU, atau apakah CPU akan berfungsi?

Tergantung pada modelnya. LLM kelas 7B terkuantisasi (int4 / int8 melalui llama.cpp atau Ollama) berjalan dengan baik pada paket CPU 16–32 GB. Penyematan model, database vektor (Qdrant, Weaviate, pgvector), dan pipeline RAG sebagian besar terikat dengan CPU. Untuk pelatihan, penyajian model yang lebih besar, atau throughput apa pun yang berat, Anda memerlukan paket GPU.

Bisakah saya menjalankan API inferensi di belakang penyeimbang beban?

Ya. Jalankan vLLM, TGI, atau layanan FastAPI Anda sendiri pada kotak GPU, letakkan VPS CPU kecil di depan sebagai gateway API dan pembatas kecepatan. Keduanya berbagi jaringan pribadi di wilayah yang sama. 40 Gbps berarti gateway tidak pernah menjadi hambatan.

Bisakah saya menghosting backend RAG?

Ya, dan itu salah satu bentuk yang paling umum. VPS CPU 16–32 GB menjalankan Postgres + pgvector atau Qdrant dengan harga murah, Anda memanggil VPS GPU atau LLM yang dihosting untuk pembuatan. NVMe membuat kueri vektor menjadi cepat, EPYC menangani komputasi penyematan saat Anda melakukan batch.

Kerangka kerja AI mana yang didukung?

Mereka semua. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (pada perangkat keras yang sesuai), Hugging Face Transformers, instal melalui conda, pip, atau Docker. Gambar CUDA yang telah dipanggang sebelumnya pada paket GPU, root penuh pada setiap paket.

Apakah GPU dibagikan?

Tidak. Paket GPU menggunakan PCI passthrough, GPU yang Anda pesan didedikasikan untuk VM Anda, memori penuh, dan jam penuh. CUDA, NVENC, NCCL semuanya berperilaku sama seperti pada kotak logam kosong. Kelas RTX untuk inferensi hemat biaya, kelas pusat data untuk pelatihan kelas atas.

Berapa banyak VRAM yang saya perlukan?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Apakah ada garansi uang kembali?

Ya, 14 hari sejak pembelian, pengembalian dana penuh, tidak ada pertanyaan. Jalankan uji latensi inferensi Anda yang sebenarnya, tolok ukur RAG Anda yang sebenarnya, dan putuskan apakah Cloudzy cocok sebelum Anda berkomitmen untuk satu tahun.

Seberapa cepat provisioning?

Setelah pembayaran dikonfirmasi, AI VPS Anda aktif dalam 60 detik. CPU atau GPU. Gambar CUDA yang sudah dipanggang pada paket GPU berarti `nvidia-smi` kembali dalam hitungan detik. Paket CPU dikirimkan dengan Ubuntu LTS atau Debian, instal tumpukan AI Anda melalui conda atau pip dalam beberapa menit.

Bisakah saya menggunakan ini dalam produksi?

Ya. SLA waktu aktif 99,95%, penagihan per jam, tanpa komitmen, IP khusus, dan opsi untuk menskalakan RAM/vCPU/penyimpanan langsung tanpa membangun kembali. Banyak pelanggan kami menjalankan inferensi AI dan RAG API dalam produksi dari Cloudzy.

Siap saat Anda siap.
AI VPS dalam 60 detik.

Pilih bentuk yang dibutuhkan beban kerja Anda. CPU untuk inferensi / RAG; GPU untuk pelatihan. Panel yang sama.

Tanpa kartu kredit · Garansi uang kembali 14 hari · Batal kapan saja