giảm giá 50% tất cả các gói, có thời hạn. Khởi điểm từ $2.48/mo

Lưu trữ VPS AI

khối lượng công việc AI,
chọn hình dạng của bạn.

RAM cao CPU dành cho suy luận/RAG hoặc GPU thuộc lớp NVIDIA dành cho đào tạo, cùng bảng điều khiển VPS.
Cloud độc lập, từ 2008. Từ $2.48/tháng · root SSH trong 60 giây.

4.6 · 706 reviews on Trustpilot

CPU từ $2.48/mo · Đã có kế hoạch GPU định giá · Hoàn tiền trong 14 ngày

~ ssh root@ai-nyc-001 đã kết nối
root@ai-nyc-001:~# cuộn tròn -fsSL https://ollama.com/install.sh | sh
Đang cài đặt thời gian chạy Ollama... xong
root@ai-nyc-001:~# ollama chạy llama3.1:8b-instruct-q4
kéo bảng kê khai · tải 4,7 GB về NVMe
mô hình đã sẵn sàng · Bắt đầu suy luận CPU
root@ai-nyc-001:~# cuộn tròn localhost:11434/api/tạo -d '...'
{"response:"Xin chào! Hôm nay tôi có thể giúp gì cho bạn?"}
root@ai-nyc-001:~# _

Sơ lược về VPS AI

Cloudzy cung cấp dịch vụ lưu trữ VPS AI ở hai dạng, RAM cao CPU có kế hoạch cho suy luận LLM lượng tử hóa, RAG và đường dẫn, cùng với Lớp NVIDIA GPU có kế hoạch đào tạo và phục vụ mô hình lớn. Kế hoạch vẫn tiếp tục AMD EPYC, Lưu trữ NVMe, Và 40 Gbps uplink khắp 12 khu vực. CPU bắt đầu lúc 2,48 $ mỗi tháng; cung cấp mất 60 giây; Hình ảnh CUDA được nướng sẵn trên các gói GPU. Cloudzy đã hoạt động độc lập kể từ 2008, phục vụ 122.000+ lập trình viên, và được đánh giá 4.6 / 5 by 706+ reviewers trên Trustpilot.

CPU bắt đầu lúc
$2.48 / tháng
các loại GPU
RTX · Chuyên nghiệp
Cung cấp
60 giây
Khu vực
12 trên toàn cầu
Uptime SLA
99.95%
Hoàn tiền
14 ngày

Tại sao các nhà phát triển AI chọn Cloudzy

Một đám mây đó tàu AI.

Bốn lý do khiến khối lượng công việc AI của bạn thuộc về nơi này.

AMD EPYC + NVMe

EPYC mới nhất cho suy luận CPU, NVMe để tải mô hình nhanh. GPU chuyên dụng thông qua chuyển tiếp PCI trên các gói GPU.

Hoàn tiền trong 14 ngày

Chạy thử nghiệm độ trễ suy luận thực của bạn trên Cloudzy. Nếu nó không phù hợp với SLO của bạn, hãy hoàn tiền trong vòng 14 ngày.

Thời gian hoạt động 99,95%

API AI sản xuất cần một máy chủ không khởi động lại trong thời gian cao điểm. SLA 30 ngày qua được theo dõi công khai tại status.cloudzy.com.

Kỹ sư trên chat

Bị mắc kẹt trên các phiên bản CUDA, lỗi NCCL hoặc điều chỉnh vLLM? Các kỹ sư có kinh nghiệm về khối lượng công việc AI, tính bằng phút chứ không phải hàng giờ.

Ngăn xếp AI

Bring whatever framework.
Nó chạy.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, tất cả đều chạy sạch. nướng sẵn Hình ảnh CUDA trên gói GPU bỏ qua bước nhảy của người lái xe. Các kế hoạch CPU xử lý suy luận lượng tử hóa và tuyển dụng công nhân với giá rẻ.

Docker + nvidia-container-toolkit đã sẵn sàng cho các gói GPU
PyTorch
CPU & GPU
Dòng chảy căng
CPU & GPU
vLLM
Phân phối GPU LLM
Ollama
LLM CPU + GPU
ôm mặt
Transformers · Diffusers
pgvector
Cửa hàng vector RAG
Qdrant
Vectơ DB
LangChain
Khung đại lý

Trường hợp sử dụng

Nhóm AI đang làm gì
Cloudzy.

API suy luận LLM

Phục vụ LLM lớp 7B–70B được lượng tử hóa đằng sau điểm cuối tương thích với OpenAI của riêng bạn. vLLM hoặc TGI trên GPU, llama.cpp / Ollama trên CPU lớn. Lập hóa đơn cho khách hàng của bạn bằng mã thông báo.

Phụ trợ RAG

Postgres + pgvector hoặc Qdrant trên VPS CPU, hộp GPU tùy chọn để nhúng/tạo. NVMe có nghĩa là việc tra cứu vectơ luôn linh hoạt.

Thời gian chạy của đại lý

Các tác nhân LangChain hoặc LlamaIndex hoạt động lâu dài tấn công API OpenAI/Anthropic và dữ liệu của riêng bạn. IP tĩnh giúp việc gọi công cụ ổn định.

Tạo hình ảnh / video

Khuếch tán ổn định, SDXL, ComfyUI, các mô hình video trên GPU lớp RTX. NVMe cho phép bạn trao đổi mô hình trong vài giây chứ không phải vài phút.

Tinh chỉnh và đào tạo

LoRA / QLoRA tinh chỉnh đào tạo đầy đủ thông số, cấp RTX trên GPU cấp trung tâm dữ liệu. CUDA, NCCL, PyTorch nướng sẵn.

Nhúng công nhân

Chạy trình chuyển đổi câu trên VPS CPU 16–32 GB để nhúng hàng triệu tài liệu mà không phải trả phí SaaS cho mỗi cuộc gọi.

60s
Cung cấp
40 Gbps
Đường lên
Chỉ dành cho NVMe
Kho
12
Khu vực
99.95%
Uptime SLA
14 ngày
Hoàn tiền

Mạng toàn cầu

12 khu vực. Bốn châu lục.
Độ trễ suy luận, đã được giải quyết.

Đặt API AI của bạn gần gũi với khách hàng của bạn. Ghép nối cổng CPU ở một khu vực với hộp GPU ở khu vực khác.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Kế hoạch CPU AI

LLM được lượng tử hóa · RAG · Nhúng. CPU là đủ.

Nhiều khối lượng công việc AI bị ràng buộc bởi CPU. Thanh toán hàng giờ · Giảm 50% cho tất cả các gói · Các gói GPU được liệt kê riêng trên /giá cả.

12 GB DDR5

Phần phụ trợ RAG · DB vector · phần nhúng

$34.98 /tháng
$69.95/mo −50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM
16 GB DDR5

Suy luận CPU cỡ trung · Cổng API

$49.98 /tháng
$99.95/mo −50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM

Câu hỏi thường gặp. VPS AI

Câu hỏi thường gặp, câu trả lời thẳng thắn.

VPS AI là gì?

VPS AI là máy chủ đám mây Linux có kích thước và cấu hình cho khối lượng công việc AI, RAM cao và lõi EPYC cho suy luận và RAG CPU hoặc GPU cấp NVIDIA để đào tạo và phục vụ mô hình lớn. Bạn SSH vào, cài đặt ngăn xếp của mình và chạy. Cùng một VPS, hình dạng khác nhau cho các công việc khác nhau.

Tôi có cần GPU không, hay CPU sẽ hoạt động?

Phụ thuộc vào mô hình. LLM lớp 7B được lượng tử hóa (int4 / int8 qua llama.cpp hoặc Ollama) chạy hữu ích trên gói CPU 16–32 GB. Các mô hình nhúng, cơ sở dữ liệu vectơ (Qdrant, Weaviate, pgvector) và các đường ống RAG hầu hết đều bị ràng buộc bởi CPU. Để đào tạo, phân phối mô hình lớn hơn hoặc bất kỳ thứ gì nặng về thông lượng, bạn cần có gói GPU.

Tôi có thể chạy API suy luận đằng sau bộ cân bằng tải không?

Đúng. Chạy vLLM, TGI hoặc dịch vụ FastAPI của riêng bạn trên hộp GPU, đặt một VPS CPU nhỏ ở phía trước làm cổng API và bộ giới hạn tốc độ. Cả hai đều chia sẻ một mạng riêng trong cùng một khu vực. 40 Gbps có nghĩa là cổng không bao giờ là nút cổ chai.

Tôi có thể lưu trữ chương trình phụ trợ RAG không?

Có, và đó là một trong những hình dạng phổ biến nhất. VPS CPU 16–32 GB chạy Postgres + pgvector hoặc Qdrant với giá rẻ, bạn gọi đến VPS GPU hoặc LLM được lưu trữ để tạo. NVMe làm cho các truy vấn vectơ trở nên linh hoạt, EPYC xử lý việc tính toán nhúng khi bạn thực hiện theo nhóm.

Những khung AI nào được hỗ trợ?

Tất cả bọn họ. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (trên phần cứng thích hợp), Hugging Face Transformers, cài đặt qua conda, pip hoặc Docker. Hình ảnh CUDA được nướng sẵn trên các gói GPU, root đầy đủ trên mọi gói.

GPU có được chia sẻ không?

Không. Các gói GPU sử dụng thông qua PCI, GPU mà bạn đăng ký được dành riêng cho máy ảo, bộ nhớ đầy đủ và đồng hồ đầy đủ. CUDA, NVENC, NCCL đều hoạt động giống như trên hộp kim loại trần. Lớp RTX dành cho suy luận tiết kiệm chi phí, lớp trung tâm dữ liệu dành cho đào tạo cao cấp.

Tôi cần bao nhiêu VRAM?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

Có đảm bảo hoàn tiền không?

Có, 14 ngày kể từ ngày mua, hoàn trả đầy đủ, không có câu hỏi nào. Chạy bài kiểm tra độ trễ suy luận thực, điểm chuẩn RAG thực của bạn và quyết định xem Cloudzy có phù hợp hay không trước khi bạn cam kết sử dụng một năm.

Cấp phát nhanh thế nào?

Sau khi thanh toán được xác nhận, VPS AI của bạn sẽ hoạt động sau 60 giây. CPU hoặc GPU. Hình ảnh CUDA được nướng sẵn trên gói GPU có nghĩa là `nvidia-smi` sẽ trả về trong vòng vài giây. Các gói CPU đi kèm với Ubuntu LTS hoặc Debian, hãy cài đặt ngăn xếp AI của bạn qua conda hoặc pip sau vài phút.

Tôi có thể sử dụng cái này trong sản xuất không?

Đúng. 99,95% thời gian hoạt động theo SLA, thanh toán theo giờ, không cần cam kết, IP chuyên dụng và tùy chọn mở rộng quy mô RAM/vCPU/bộ nhớ trực tiếp mà không cần xây dựng lại. Nhiều khách hàng của chúng tôi chạy suy luận AI và API RAG trong quá trình sản xuất từ ​​Cloudzy.

Sẵn sàng khi bạn cần.
VPS AI trong 60 giây.

Chọn hình dạng khối lượng công việc của bạn cần. CPU cho suy luận/RAG; GPU để đào tạo. Cùng một bảng điều khiển.

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào