Giảm 50% tất cả các gói, thời gian có hạn. Bắt đầu từ $2.48/mo

Dịch vụ lưu trữ VPS AI

Các khối lượng công việc AI,
chọn cấu hình phù hợp với bạn.

GPU cao cấp cho suy luận / RAG, hoặc GPU cấp NVIDIA cho huấn luyện, cùng một bảng điều khiển.
Cloud độc lập, từ năm 2008. Từ $2.48/tháng · SSH root trong 60 giây.

4.6 · 728 reviews on Trustpilot

CPU từ $2.48/mo · Các kế hoạch GPU trên định giá · Hoàn tiền trong 14 ngày

~ ssh root@ai-nyc-001 kết nối
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Đang cài đặt Ollama runtime... hoàn tất
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
đang tải manifest · tải xuống 4.7 GB vào NVMe
model sẵn sàng · CPU đang khởi chạy suy luận
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Xin chào! Tôi có thể giúp gì cho bạn hôm nay?"}
root@ai-nyc-001:~# _

AI VPS trong nháy mắt

Cloudzy cung cấp dịch vụ lưu trữ AI VPS theo hai hướng: các gói CPU hiệu năng cao RAM cho inference lượng tử hóa, RAG và pipeline, cùng với NVIDIA-class Các gói GPU dành cho việc huấn luyện mô hình và triển khai mô hình lớn. Các gói chạy trên AMD EPYC, Lưu trữ NVMe, và 40 Gbps kết nối liên tục 12 vùng. CPU bắt đầu từ $2.48 per monthCung cấp mất 60 giây; CUDA images được cài đặt sẵn trên các gói GPU. Cloudzy hoạt động độc lập từ năm 2008, phục vụ Hơn 122.000+ nhà phát triển, và được xếp hạng 4.6 / 5 by 728+ reviewers trên Trustpilot.

CPU bắt đầu từ
$2.48 / month
Các loại GPU
RTX · Pro
Cấp phát
60 giây
Các vùng
12 trên toàn thế giới
Thời gian hoạt động SLA
99.95%
Hoàn lại tiền
14 ngày

Lý do các nhà phát triển AI chọn Cloudzy

Một đám mây mà tàu AI.

Bốn lý do để chạy workload AI của bạn tại đây.

AMD EPYC + NVMe

GPU thế hệ mới nhất cho suy luận EPYC, NVMe để tải mô hình nhanh. GPU chuyên dụng qua PCI passthrough trên các gói GPU.

Hoàn tiền trong 14 ngày

Chạy thử nghiệm độ trễ inference thực tế trên Cloudzy. Nếu không đáp ứng SLO của bạn, hoàn tiền trong vòng 14 ngày.

99.95% thời gian hoạt động

AI production APIs cần một máy chủ không khởi động lại giữa giờ cao điểm. SLA 30 ngày gần nhất được công bố công khai tại status.cloudzy.com.

Các kỹ sư trên chat

Gặp khó với phiên bản CUDA, lỗi NCCL, hay tinh chỉnh vLLM? Đội ngũ kỹ sư có kinh nghiệm với AI workload - phản hồi trong vài phút, không phải vài giờ.

Ngăn xếp AI

Dùng framework nào cũng được.
Nó chạy.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, tất cả đều chạy ổn định. Image CUDA được cài sẵn trên các gói GPU giúp bạn bỏ qua bước cài driver. Các gói CPU xử lý quantized inference và embedding worker với chi phí thấp.

Docker + nvidia-container-toolkit đã sẵn sàng trên các gói GPU
PyTorch
CPU và GPU
TensorFlow
CPU và GPU
vLLM
Phục vụ GPU LLM
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
Kho vector RAG
Qdrant
Cơ sở dữ liệu Vector
LangChain
Khung Agent

Các trường hợp sử dụng

Nền tảng mà các nhóm AI tin dùng
Cloudzy.

Suy luận LLM API

Phục vụ các LLM lớp 7B–70B được lượng tử hóa phía sau điểm cuối tương thích với OpenAI của riêng bạn. vLLM hoặc TGI trên GPU, llama.cpp / Ollama trên CPU mạnh. Tính phí cho khách hàng của bạn theo token.

Các backend RAG

Postgres + pgvector hoặc Qdrant trên một CPU VPS, thêm GPU nếu cần cho embedding/generation. NVMe giúp vector lookup luôn nhanh.

Thời gian chạy Agent

Các agent LangChain hoặc LlamaIndex chạy lâu dài, gọi đến các API của OpenAI/Anthropic và dữ liệu của bạn. IP tĩnh giúp việc gọi tool luôn ổn định.

Tạo ảnh / video

Stable Diffusion, SDXL, ComfyUI, các mô hình video trên GPU dòng RTX. NVMe cho phép bạn chuyển đổi mô hình trong vài giây, không phải vài phút.

Tinh chỉnh & huấn luyện mô hình

Tinh chỉnh LoRA / QLoRA trên GPU dòng RTX, huấn luyện toàn tham số trên GPU datacenter-class. CUDA, NCCL, PyTorch cài sẵn, dùng ngay.

Nhân viên nhúng

Chạy worker sentence-transformers trên CPU VPS với 16–32 GB RAM để nhúng vector hàng triệu tài liệu mà không phải trả phí theo từng lần gọi SaaS.

60s
Cấp phát
40 Gbps
Liên kết lên
Chỉ NVMe
Lưu trữ
12
Các vùng
99.95%
Thời gian hoạt động SLA
14 ngày
Hoàn lại tiền

Mạng toàn cầu

12 khu vực. Bốn châu lục.
Độ trễ suy luận? Đã được giải quyết.

Đặt AI API gần với người dùng của bạn. Kết hợp một gateway CPU ở một khu vực với một máy chủ GPU ở khu vực khác.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Kế hoạch CPU AI

Mô hình lượng tử hóa LLM · RAG · Embeddings. CPU là đủ.

Nhiều tác vụ AI bị giới hạn bởi CPU. Tính phí theo giờ · Giảm 50% tất cả các gói · Các gói GPU được liệt kê riêng trên /pricing.

12 GB DDR5

RAG backend · cơ sở dữ liệu vector · embeddings

$34.98 /tháng
$69.95/mo −50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Gốc SSH · KVM
16 GB DDR5

Suy luận tầm trung CPU · Cổng kết nối API

$49.98 /tháng
$99.95/mo −50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Gốc SSH · KVM

Các câu hỏi thường gặp. AI VPS

Những câu hỏi thường gặp, câu trả lời thẳng thắn.

AI VPS là gì?

VPS AI là máy chủ đám mây Linux được trang bị cấu hình phù hợp cho các tác vụ AI, với RAM lớn và nhân EPYC cho suy luận CPU và RAG, hoặc GPU dòng NVIDIA cho việc huấn luyện và phục vụ mô hình lớn. Bạn kết nối qua SSH, cài đặt môi trường làm việc và chạy ngay. Cùng một VPS nhưng có nhiều cấu hình khác nhau phù hợp với từng nhu cầu cụ thể.

Tôi có cần GPU không, hay CPU cũng được?

Tùy vào model. Các model 7B dạng quantized (int4 / int8 qua llama.cpp hoặc Ollama) chạy tốt trên gói CPU 16–32 GB. Embedding model, vector database (Qdrant, Weaviate, pgvector) và pipeline RAG hầu hết bị giới hạn bởi CPU. Để training, phục vụ model lớn hơn, hoặc bất kỳ tác vụ nào đòi hỏi throughput cao, bạn cần gói GPU.

Tôi có thể chạy inference API phía sau một load balancer không?

Được. Chạy vLLM, TGI, hoặc dịch vụ FastAPI của riêng bạn trên máy chủ GPU, đặt một VPS CPU nhỏ phía trước làm API gateway và rate limiter. Cả hai chia sẻ mạng riêng trong cùng một region. Băng thông 40 Gbps đảm bảo gateway không bao giờ là điểm nghẽn cổ chai.

Tôi có thể host backend RAG không?

Đúng, và đây là một trong những kiến trúc phổ biến nhất. Một CPU VPS RAM 16–32 GB chạy Postgres + pgvector hoặc Qdrant với chi phí thấp, bạn gọi ra một GPU VPS hoặc LLM được host sẵn để sinh nội dung. NVMe giúp truy vấn vector nhanh hơn, EPYC xử lý tính toán embedding khi bạn chạy batch.

Những framework AI nào được hỗ trợ?

Tất cả đều được hỗ trợ. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (trên phần cứng phù hợp), Hugging Face Transformers, cài đặt qua conda, pip, hoặc Docker. Các gói CUDA được cài sẵn trên các gói GPU, toàn quyền root trên mọi gói dịch vụ.

Các GPU có phải dùng chung không?

Không. Các gói GPU sử dụng PCI passthrough, GPU bạn thuê được dành riêng cho VM của bạn, toàn bộ bộ nhớ và toàn bộ xung nhịp. CUDA, NVENC, NCCL hoạt động hoàn toàn giống như trên máy bare-metal. RTX-class phù hợp cho inference tiết kiệm chi phí, datacenter-class dành cho training hiệu năng cao.

Tôi cần bao nhiêu VRAM?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Có chính sách hoàn tiền không?

Có, trong vòng 14 ngày kể từ ngày mua, hoàn tiền toàn bộ, không cần giải thích. Chạy thử inference latency thực tế, benchmark RAG thực tế, và tự đánh giá xem Cloudzy có phù hợp không trước khi cam kết cả năm.

Tốc độ khởi tạo máy chủ nhanh như thế nào?

Sau khi thanh toán được xác nhận, AI VPS của bạn sẽ hoạt động trong vòng 60 giây. CPU hoặc GPU. Các gói GPU đi kèm image CUDA được cài sẵn, chạy `nvidia-smi` là có kết quả ngay. Các gói CPU được cài sẵn Ubuntu LTS hoặc Debian, bạn có thể cài AI stack qua conda hoặc pip trong vài phút.

Tôi có thể dùng cái này trong môi trường production không?

Có. Cam kết uptime 99,95% SLA, tính phí theo giờ, không ràng buộc hợp đồng, IP riêng, và khả năng nâng cấp CPU RAM/vCPU/storage trực tiếp mà không cần rebuild. Nhiều khách hàng của chúng tôi chạy AI inference và RAG API trên môi trường production ngay từ Cloudzy.

Sẵn sàng khi bạn cần.
AI VPS trong 60 giây.

Chọn cấu hình phù hợp với workload của bạn. CPU dành cho inference / RAG; GPU dành cho training. Cùng một bảng điều khiển.

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào