50% off 所有套餐限时优惠,起价 $2.48/mo

AI VPS Hosting

AI workloads,
选择你需要的配置。

高性能 RAM CPU 用于推理 / RAG,或 NVIDIA 级别 GPU 用于训练,统一 VPS 控制台。
独立云服务,始于2008年。低至 $2.48/月 · 60秒内获得 root 权限 SSH。

4.6 · 713 reviews on Trustpilot

CPU from $2.48/mo · GPU plans on pricing · 14天退款保证

~ ssh root@ai-nyc-001 connected
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
正在安装 Ollama 运行时... 完成
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
正在拉取镜像 · 正在下载 4.7 GB 到 NVMe
模型就绪 · CPU 推理启动中
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"你好!有什么我可以帮你的吗?"}
root@ai-nyc-001:~# _

AI VPS at a glance

Cloudzy 提供两种 AI VPS 托管方案:针对量化 LLM 推理、RAG 和流水线的高 RAM CPU 套餐,以及 NVIDIA-class GPU 计划,适用于模型训练与大模型推理服务。 计划运行于 AMD EPYC, NVMe storage, and 40 Gbps uplinks across 12 regions. CPU starts at $2.48 per month; provisioning takes 60 seconds; CUDA 镜像已预装于 GPU 方案中。 Cloudzy 自 2008, serves 122,000+ developers, and is rated 4.6 / 5 by 713+ reviewers on Trustpilot.

CPU starts at
$2.48 / month
GPU types
RTX · Pro
Provisioning
60 seconds
Regions
12 worldwide
Uptime SLA
99.95%
Money-back
14 days

为什么 AI 开发者选择 Cloudzy

A cloud that ships AI.

四个理由,让你的 AI 工作负载在这里运行。

AMD EPYC + NVMe

最新 EPYC 专为 CPU 推理优化,NVMe 加速模型加载。GPU 方案通过 PCI passthrough 提供独享 GPU。

14 天退款保障

在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO,14 天内可全额退款。

99.95% uptime

生产环境的 AI 工作负载容不得峰值期间的意外重启。过去 30 天的正常运行时间数据公开发布于 status.cloudzy.com。

Engineers on chat

卡在 CUDA 版本兼容、NCCL 报错,或 vLLM 调优上?我们的工程师熟悉 AI 工作负载,几分钟内响应,不用等几小时。

The AI stack

用你熟悉的框架就行。
It runs.

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang,全部开箱即用。GPU 方案预装 CUDA 镜像,省去驱动配置的麻烦。CPU 方案以较低成本运行量化推理和 embedding 工作进程。

Docker + nvidia-container-toolkit 已在 GPU 方案上预装就绪
PyTorch
CPU & GPU
TensorFlow
CPU & GPU
vLLM
GPU LLM serving
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
RAG 向量存储
Qdrant
Vector DB
LangChain
Agent framework

Use cases

AI 团队的首选基础设施
Cloudzy.

LLM 推理 APIs

在你自己的 OpenAI 兼容接口后面部署量化的 7B–70B 级 LLM 模型。在 GPU 上运行 vLLM 或 TGI,在大内存 CPU 上运行 llama.cpp / Ollama。按 token 向你的客户计费。

RAG backends

在 CPU VPS 上部署 Postgres + pgvector 或 Qdrant,可选配 GPU 节点用于嵌入与生成。NVMe 确保向量检索保持高速响应。

Agent runtimes

长期运行的 LangChain 或 LlamaIndex 智能体,调用 OpenAI/Anthropic API 及自有数据。固定 IP 确保工具调用稳定可靠。

图像/视频生成

Stable Diffusion、SDXL、ComfyUI、视频模型,均可在 RTX 级 GPU 上运行。NVMe 让你在几秒内切换模型,无需等待。

微调与训练

LoRA / QLoRA 微调使用 RTX 系列 GPU,全参数训练使用数据中心级 GPU。CUDA、NCCL、PyTorch 均已预装。

Embedding workers

在配备 16–32 GB CPU VPS 的服务器上运行 sentence-transformers,批量处理数百万文档的向量嵌入,无需按次付费 SaaS。

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12个区域,横跨四大洲。
推理延迟,不再是问题。

将您的 AI API 部署在离用户更近的地方。在一个区域部署 CPU 网关,在另一个区域部署 GPU 服务器,两者协同工作。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI plans

量化 LLMs · RAG · Embeddings。 CPU is enough.

许多 AI 工作负载受 CPU 限制。按小时计费 · 所有方案五折优惠 · GPU 方案单独列于 /pricing.

12 GB DDR5

RAG 后端 · 向量数据库 · 嵌入向量

$34.98 /mo
$69.95/mo −50%
Deploy now
14 天退款保障
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

中型 CPU 推理 · API 网关

$49.98 /mo
$99.95/mo −50%
Deploy now
14 天退款保障
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

FAQ. AI VPS

Common questions, straight answers.

What is an AI VPS?

An AI VPS is a Linux cloud server sized and configured for AI workloads, high RAM and EPYC cores for CPU inference and RAG, or NVIDIA-class GPUs for training and large-model serving. You SSH in, install your stack, and run. Same VPS, different shapes for different jobs.

我需要 GPU,还是 CPU 就够用了?

Depends on the model. Quantized 7B-class LLMs (int4 / int8 via llama.cpp or Ollama) run usefully on a 16–32 GB CPU plan. Embedding models, vector databases (Qdrant, Weaviate, pgvector), and RAG pipelines are mostly CPU-bound. For training, larger model serving, or anything throughput-heavy, you want a GPU plan.

我可以在负载均衡器后面运行推理 API 吗?

可以。在 GPU 服务器上运行 vLLM、TGI,或你自己的 FastAPI 服务,然后在前面放一个小型 CPU VPS 作为 API 网关和限速器。两台服务器在同一区域的私有网络内互通,40 Gbps 的带宽足以保证网关不会成为瓶颈。

我可以在这里托管 RAG 后端吗?

是的,这是最常见的架构之一。一台 16–32 GB 内存的 CPU VPS 可以低成本运行 Postgres + pgvector 或 Qdrant,生成环节则调用独立的 GPU VPS 或托管 LLM。NVMe 让向量查询响应飞快,EPYC 则负责批量处理 embedding 计算。

支持哪些 AI 框架?

All of them. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (on the appropriate hardware), Hugging Face Transformers, install via conda, pip, or Docker. Pre-baked CUDA images on the GPU plans, full root on every plan.

GPU 是共享资源吗?

不。GPU 方案采用 PCI 直通技术,你预订的 GPU 完全专属于你的虚拟机,全量显存,满速运行。CUDA、NVENC、NCCL 的表现与裸金属服务器完全一致。RTX 系列适合性价比优先的推理场景,数据中心系列则面向高强度训练任务。

我需要多少 VRAM?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

有退款保证吗?

是的,购买之日起 14 天内可申请全额退款,无需任何理由。用真实的推理延迟测试、真实的 RAG 基准跑一遍,确认 Cloudzy 符合你的需求,再决定是否签年付合同。

配置速度有多快?

Once payment is confirmed, your AI VPS is live in 60 seconds. CPU or GPU. Pre-baked CUDA images on GPU plans mean `nvidia-smi` returns within seconds. CPU plans ship with Ubuntu LTS or Debian, install your AI stack via conda or pip in a few minutes.

这个可以用于生产环境吗?

是的。我们提供 99.95% 的正常运行时间 SLA、按小时计费、无需长期承诺、独享 IP,以及无需重建即可在线扩展 RAM/vCPU/存储的能力。许多客户已在 Cloudzy 上将 AI 推理和 RAG API 部署到生产环境。

随时可以上手。
AI VPS in 60 seconds.

根据工作负载选择合适的配置。CPU 适合推理和 RAG,GPU 适合训练。统一管理面板。

无需信用卡 · 14 天退款保证 · 随时取消