五折优惠 所有套餐限时优惠,起价 $2.48/mo

AI VPS 主机

AI工作负载,
选择你需要的配置。

高性能 RAM CPU 用于推理 / RAG,或 NVIDIA 级别 GPU 用于训练,统一 VPS 控制台。
独立云服务,始于2008年。低至 $2.48/月 · 60秒内获得 root 权限 SSH。

4.6 · 736 reviews on Trustpilot

CPU 来自 $2.48/mo · GPU 计划于 定价 · 14天退款保证

~ ssh root@ai-nyc-001 已连接
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
正在安装 Ollama 运行时... 完成
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
正在拉取镜像 · 正在下载 4.7 GB 到 NVMe
模型就绪 · CPU 推理启动中
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"你好!有什么我可以帮你的吗?"}
root@ai-nyc-001:~# _

AI VPS 一览

Cloudzy 提供两种 AI VPS 托管方案:针对量化 LLM 推理、RAG 和流水线的高 RAM CPU 套餐,以及 NVIDIA级 GPU 计划,适用于模型训练与大模型推理服务。 计划运行于 AMD EPYC, NVMe 存储, 和 40 Gbps 跨链路 12个地区CPU 从...开始 $2.48 per month正在配置中 60秒; CUDA 镜像已预装于 GPU 方案中。 Cloudzy 自 2008,服务 122,000+ 开发者和被评为 4.6 / 5 by 736+ reviewers 在 Trustpilot 上。

CPU 起价于
$2.48 / month
GPU 类型
RTX · Pro
配置
60秒
地区
12 全球
正常运行时间 SLA
99.95%
退款
14天

为什么 AI 开发者选择 Cloudzy

一朵云 船舶AI。

四个理由,让你的 AI 工作负载在这里运行。

AMD EPYC + NVMe

最新 EPYC 专为 CPU 推理优化,NVMe 加速模型加载。GPU 方案通过 PCI passthrough 提供独享 GPU。

14 天退款保障

在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO,14 天内可全额退款。

99.95% 正常运行时间

生产环境的 AI 工作负载容不得峰值期间的意外重启。过去 30 天的正常运行时间数据公开发布于 status.cloudzy.com。

工程师在线客服

卡在 CUDA 版本兼容、NCCL 报错,或 vLLM 调优上?我们的工程师熟悉 AI 工作负载,几分钟内响应,不用等几小时。

AI堆栈

用你熟悉的框架就行。
它运行。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang,全部开箱即用。GPU 方案预装 CUDA 镜像,省去驱动配置的麻烦。CPU 方案以较低成本运行量化推理和 embedding 工作进程。

Docker + nvidia-container-toolkit 已在 GPU 方案上预装就绪
PyTorch
CPU 和 GPU
TensorFlow
CPU 和 GPU
vLLM
GPU LLM 服务
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
RAG 向量存储
Qdrant
向量数据库
LangChain
代理框架

使用场景

AI 团队的首选基础设施
Cloudzy.

LLM 推理 APIs

在你自己的 OpenAI 兼容接口后面部署量化的 7B–70B 级 LLM 模型。在 GPU 上运行 vLLM 或 TGI,在大内存 CPU 上运行 llama.cpp / Ollama。按 token 向你的客户计费。

RAG后端

在 CPU VPS 上部署 Postgres + pgvector 或 Qdrant,可选配 GPU 节点用于嵌入与生成。NVMe 确保向量检索保持高速响应。

代理程序运行时

长期运行的 LangChain 或 LlamaIndex 智能体,调用 OpenAI/Anthropic API 及自有数据。固定 IP 确保工具调用稳定可靠。

图像/视频生成

Stable Diffusion、SDXL、ComfyUI、视频模型,均可在 RTX 级 GPU 上运行。NVMe 让你在几秒内切换模型,无需等待。

微调与训练

LoRA / QLoRA 微调使用 RTX 系列 GPU,全参数训练使用数据中心级 GPU。CUDA、NCCL、PyTorch 均已预装。

嵌入式工作人员

在配备 16–32 GB CPU VPS 的服务器上运行 sentence-transformers,批量处理数百万文档的向量嵌入,无需按次付费 SaaS。

60s
配置
40 Gbps
上行链路
NVMe专用
存储
12
地区
99.95%
正常运行时间 SLA
14天
退款

全球网络

12个区域,横跨四大洲。
推理延迟,不再是问题。

将您的 AI API 部署在离用户更近的地方。在一个区域部署 CPU 网关,在另一个区域部署 GPU 服务器,两者协同工作。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU人工智能计划

量化 LLMs · RAG · Embeddings。 CPU 足够了。

许多 AI 工作负载受 CPU 限制。按小时计费 · 所有方案五折优惠 · GPU 方案单独列于 /pricing.

12 GB DDR5

RAG 后端 · 向量数据库 · 嵌入向量

$34.98 /月
$69.95/mo 负50%
立即部署
14 天退款保障
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

中型 CPU 推理 · API 网关

$49.98 /月
$99.95/mo 负50%
立即部署
14 天退款保障
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

常见问题。AI VPS

常见问题 直接答案。

AI VPS是什么?

AI VPS 是一种 Linux 云服务器,专为 AI 工作负载配置,提供大容量 RAM 和 EPYC 核心用于 CPU 推理与 RAG,或搭载 NVIDIA 级别 GPU 用于模型训练和大模型推理服务。通过 SSH 连接后,安装所需环境即可运行。同样是 VPS,针对不同任务提供不同的配置规格。

我需要 GPU,还是 CPU 就够用了?

取决于模型。量化的7B级LLM(通过llama.cpp或Ollama的int4/int8)在16–32 GB CPU方案上运行效果良好。嵌入模型、向量数据库(Qdrant、Weaviate、pgvector)和RAG管道主要受CPU限制。对于训练、更大模型服务或任何高吞吐量的工作,你需要GPU方案。

我可以在负载均衡器后面运行推理 API 吗?

可以。在 GPU 服务器上运行 vLLM、TGI,或你自己的 FastAPI 服务,然后在前面放一个小型 CPU VPS 作为 API 网关和限速器。两台服务器在同一区域的私有网络内互通,40 Gbps 的带宽足以保证网关不会成为瓶颈。

我可以在这里托管 RAG 后端吗?

是的,这是最常见的架构之一。一台 16–32 GB 内存的 CPU VPS 可以低成本运行 Postgres + pgvector 或 Qdrant,生成环节则调用独立的 GPU VPS 或托管 LLM。NVMe 让向量查询响应飞快,EPYC 则负责批量处理 embedding 计算。

支持哪些 AI 框架?

全部支持。PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX(需搭配适配硬件)、Hugging Face Transformers,可通过 conda、pip 或 Docker 安装。GPU 套餐预装 CUDA 镜像,所有套餐均提供完整 root 权限。

GPU 是共享资源吗?

不。GPU 方案采用 PCI 直通技术,你预订的 GPU 完全专属于你的虚拟机,全量显存,满速运行。CUDA、NVENC、NCCL 的表现与裸金属服务器完全一致。RTX 系列适合性价比优先的推理场景,数据中心系列则面向高强度训练任务。

我需要多少 VRAM?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

有退款保证吗?

是的,购买之日起 14 天内可申请全额退款,无需任何理由。用真实的推理延迟测试、真实的 RAG 基准跑一遍,确认 Cloudzy 符合你的需求,再决定是否签年付合同。

配置速度有多快?

付款确认后,您的 AI VPS 将在 60 秒内上线。CPU 或 GPU 均可选择。GPU 方案预装 CUDA 镜像,`nvidia-smi` 命令可在数秒内返回结果。CPU 方案搭载 Ubuntu LTS 或 Debian,通过 conda 或 pip 安装 AI 环境,几分钟即可完成。

这个可以用于生产环境吗?

是的。我们提供 99.95% 的正常运行时间 SLA、按小时计费、无需长期承诺、独享 IP,以及无需重建即可在线扩展 RAM/vCPU/存储的能力。许多客户已在 Cloudzy 上将 AI 推理和 RAG API 部署到生产环境。

随时可以上手。
AI VPS 60秒内完成。

根据工作负载选择合适的配置。CPU 适合推理和 RAG,GPU 适合训练。统一管理面板。

无需信用卡 · 14 天退款保证 · 随时取消