跳至主要内容
五折优惠 全部方案,限时优惠。起价 $2.48/mo

AI VPS 主机

AI工作负载,
选择你需要的配置。

高性能 RAM CPU 用于推理 / RAG,或 NVIDIA 级别 GPU 用于训练,统一 VPS 控制台。
独立云,自 2008 年起。$2.48/月起 · 60 秒 root SSH。

4.7 · 755 reviews on Trustpilot

CPU 来自 $2.48/mo · GPU plans on 定价 · 14 天退款保证

~ ssh root@ai-nyc-001 已连接
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Installing Ollama runtime... done
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
pulling manifest · downloading 4.7 GB to NVMe
model ready · CPU inference starting
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"Hello! How can I help you today?"}
root@ai-nyc-001:~# _

AI VPS 一览

Cloudzy 提供两种 AI VPS 托管方案:针对量化 LLM 推理、RAG 和流水线的高 RAM CPU 套餐,以及 NVIDIA级 GPU 计划,适用于模型训练与大模型推理服务。 计划运行于 AMD EPYC, NVMe 存储, 以及 40 Gbps 上行带宽,覆盖 13 个节点CPU 从...开始 $2.48 per month正在配置中 60 秒; CUDA 镜像已预装于 GPU 方案中。 Cloudzy 自 2008,服务于 122,000+ 开发者,评分为 4.7 / 5 by 755+ reviewers Trustpilot 评分。

CPU 起价于
$2.48 / month
GPU 类型
RTX · Pro
配置
60 秒
地区
全球 13 个
在线率 SLA
99.95%
退款
14天

为什么 AI 开发者选择 Cloudzy

一朵云 船舶AI。

四个理由,让你的 AI 工作负载在这里运行。

AMD EPYC + NVMe

最新 EPYC 专为 CPU 推理优化,NVMe 加速模型加载。GPU 方案通过 PCI passthrough 提供独享 GPU。

14 天退款保证

在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO,14 天内可全额退款。

99.95% 正常运行时间

生产环境的 AI 工作负载容不得峰值期间的意外重启。过去 30 天的正常运行时间数据公开发布于 status.cloudzy.com。

工程师在线聊天

卡在 CUDA 版本兼容、NCCL 报错,或 vLLM 调优上?我们的工程师熟悉 AI 工作负载,几分钟内响应,不用等几小时。

AI堆栈

用你熟悉的框架就行。
它运行。

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang, all run cleanly. Pre-baked CUDA images on GPU plans skip the driver dance. CPU plans handle quantized inference and embedding workers cheaply.

Docker + nvidia-container-toolkit 已在 GPU 方案上预装就绪
PyTorch
CPU 和 GPU
TensorFlow
CPU 和 GPU
vLLM
GPU LLM 服务
Ollama
CPU + GPU LLMs
Hugging Face
Transformers · Diffusers
pgvector
RAG 向量存储
Qdrant
向量数据库
LangChain
代理框架

使用场景

AI 团队的首选基础设施
Cloudzy.

LLM 推理 APIs

在你自己的 OpenAI 兼容接口后面部署量化的 7B–70B 级 LLM 模型。在 GPU 上运行 vLLM 或 TGI,在大内存 CPU 上运行 llama.cpp / Ollama。按 token 向你的客户计费。

RAG后端

在 CPU VPS 上部署 Postgres + pgvector 或 Qdrant,可选配 GPU 节点用于嵌入与生成。NVMe 确保向量检索保持高速响应。

代理程序运行时

长期运行的 LangChain 或 LlamaIndex 智能体,调用 OpenAI/Anthropic API 及自有数据。固定 IP 确保工具调用稳定可靠。

图像/视频生成

Stable Diffusion、SDXL、ComfyUI、视频模型,均可在 RTX 级 GPU 上运行。NVMe 让你在几秒内切换模型,无需等待。

微调与训练

LoRA / QLoRA 微调使用 RTX 系列 GPU,全参数训练使用数据中心级 GPU。CUDA、NCCL、PyTorch 均已预装。

嵌入式工作人员

在配备 16–32 GB CPU VPS 的服务器上运行 sentence-transformers,批量处理数百万文档的向量嵌入,无需按次付费 SaaS。

60s
配置
40 Gbps
上行链路
NVMe专用
存储
13
地区
99.95%
在线率 SLA
14 days
退款

全球网络

13 个节点。四大洲覆盖。
推理延迟,不再是问题。

将您的 AI API 部署在离用户更近的地方。在一个区域部署 CPU 网关,在另一个区域部署 GPU 服务器,两者协同工作。

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

CPU人工智能计划

量化 LLMs · RAG · Embeddings。 CPU 足够了。

许多 AI 工作负载受 CPU 限制。按小时计费 · 所有方案五折优惠 · GPU 方案单独列于 /pricing.

12 GB DDR5

RAG 后端 · 向量数据库 · 嵌入向量

$34.98 /mo
$69.95/mo −50%
立即部署
14 天退款保证
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

中型 CPU 推理 · API 网关

$49.98 /mo
$99.95/mo −50%
立即部署
14 天退款保证
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

常见问题。AI VPS

常见问题, 直接回答。

AI VPS是什么?

AI VPS 是一种 Linux 云服务器,专为 AI 工作负载配置,提供大容量 RAM 和 EPYC 核心用于 CPU 推理与 RAG,或搭载 NVIDIA 级别 GPU 用于模型训练和大模型推理服务。通过 SSH 连接后,安装所需环境即可运行。同样是 VPS,针对不同任务提供不同的配置规格。

我需要 GPU,还是 CPU 就够用了?

取决于模型。量化的7B级LLM(通过llama.cpp或Ollama的int4/int8)在16–32 GB CPU方案上运行效果良好。嵌入模型、向量数据库(Qdrant、Weaviate、pgvector)和RAG管道主要受CPU限制。对于训练、更大模型服务或任何高吞吐量的工作,你需要GPU方案。

我可以在负载均衡器后面运行推理 API 吗?

可以。在 GPU 服务器上运行 vLLM、TGI,或你自己的 FastAPI 服务,然后在前面放一个小型 CPU VPS 作为 API 网关和限速器。两台服务器在同一区域的私有网络内互通,40 Gbps 的带宽足以保证网关不会成为瓶颈。

我可以在这里托管 RAG 后端吗?

是的,这是最常见的架构之一。一台 16–32 GB 内存的 CPU VPS 可以低成本运行 Postgres + pgvector 或 Qdrant,生成环节则调用独立的 GPU VPS 或托管 LLM。NVMe 让向量查询响应飞快,EPYC 则负责批量处理 embedding 计算。

支持哪些 AI 框架?

全部支持。PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX(需搭配适配硬件)、Hugging Face Transformers,可通过 conda、pip 或 Docker 安装。GPU 套餐预装 CUDA 镜像,所有套餐均提供完整 root 权限。

GPU 是共享资源吗?

不。GPU 方案采用 PCI 直通技术,你预订的 GPU 完全专属于你的虚拟机,全量显存,满速运行。CUDA、NVENC、NCCL 的表现与裸金属服务器完全一致。RTX 系列适合性价比优先的推理场景,数据中心系列则面向高强度训练任务。

我需要多少 VRAM?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

有退款保证吗?

是的,购买之日起 14 天内可申请全额退款,无需任何理由。用真实的推理延迟测试、真实的 RAG 基准跑一遍,确认 Cloudzy 符合你的需求,再决定是否签年付合同。

开通有多快?

付款确认后,您的 AI VPS 将在 60 秒内上线。CPU 或 GPU 均可选择。GPU 方案预装 CUDA 镜像,`nvidia-smi` 命令可在数秒内返回结果。CPU 方案搭载 Ubuntu LTS 或 Debian,通过 conda 或 pip 安装 AI 环境,几分钟即可完成。

这个可以用于生产环境吗?

是的。我们提供 99.95% 的正常运行时间 SLA、按小时计费、无需长期承诺、独享 IP,以及无需重建即可在线扩展 RAM/vCPU/存储的能力。许多客户已在 Cloudzy 上将 AI 推理和 RAG API 部署到生产环境。

随时为你准备好。
AI VPS 60秒内完成。

根据工作负载选择合适的配置。CPU 适合推理和 RAG,GPU 适合训练。统一管理面板。

无需信用卡 · 14 天退款保证 · 随时取消