50% 折扣 所有计划,时间有限。开始于 $2.48/mo

人工智能VPS托管

人工智能工作负载,
选择你的形状。

用于推理/RAG 的高 RAM CPU,或用于训练的 NVIDIA 级 GPU — 相同的 VPS 面板。
独立云,自 2008 年起。2.48 美元/月起 · 60 秒内完成 root SSH。

4.6 · Trustpilot 上有 684 条评论

中央处理器从 $2.48/mo · GPU 计划 定价 · 14天退款

~ ssh root@ai-nyc-001 已连接
root@ai-nyc-001:~# 卷曲-fsSL https://ollama.com/install.sh |嘘
安装 Ollama 运行时...完成
root@ai-nyc-001:~# ollama 运行 llama3.1:8b-instruct-q4
拉取清单·下载 4.7 GB 到 NVMe
模型准备就绪 · CPU 推理开始
root@ai-nyc-001:~# 卷曲本地主机:11434/api/generate -d '...'
{"response":"您好!今天需要什么帮助吗?"}
root@ai-nyc-001:~# _

AI VPS 一览

Cloudzy 提供两种形式的 AI VPS 托管 — 高 RAM 用于量化 LLM 推理、RAG 和管道的 CPU 计划,以及 NVIDIA 级 用于训练和大型模型服务的 GPU 计划。 计划继续进行 AMD 霄龙, NVMe存储, 和 40 Gbps 上行链路跨越 12个地区。 CPU 启动于 $2.48 per month;配置需要 60 秒; CUDA 图像是在 GPU 计划上预烘焙的。 Cloudzy 自此独立运营 2008, 服务 122,000+ 开发者,并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

CPU 启动于
$2.48 / month
GPU 类型
RTX·专业版
配置
60秒
地区
全球12个
正常运行时间服务等级协议
99.95%
退款
14天

为什么 AI 构建者选择 Cloudzy

一朵云 船舶人工智能。

您的人工智能工作负载属于这里的四个原因。

AMD EPYC(霄龙)+ NVMe

用于 CPU 推理的最新 EPYC,用于快速模型加载的 NVMe。 GPU 计划上通过 PCI 直通的专用 GPU。

14 天退款

在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO,请在 14 天内退款。

99.95% 正常运行时间

生产 AI API 需要一台在高峰期间不会重新启动的主机。最近 30 天的 SLA 在 status.cloudzy.com 上公开跟踪。

工程师在聊天

纠结于 CUDA 版本、NCCL 错误或 vLLM 调整?具有人工智能工作负载经验的工程师只需几分钟而不是几小时。

人工智能堆栈

带什么框架。
它运行了。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang — 全部运行干净。预烤 GPU 上的 CUDA 图像计划跳过驱动程序舞蹈。 CPU 计划处理量化推理和 廉价地安置工人。

Docker + nvidia-container-toolkit 已准备好 GPU 计划
火炬
中央处理器和图形处理器
TensorFlow
中央处理器和图形处理器
法学硕士
GPU 法学硕士服务
奥拉马
CPU + GPU 法学硕士
抱脸
变形金刚·扩散器
PG向量
RAG矢量商店
奎德兰特
矢量数据库
浪链
代理框架

使用案例

AI 团队依靠什么运行
多云的。

LLM 推理 API

在您自己的 OpenAI 兼容端点后面提供量化的 7B–70B 级 LLM。 GPU 上的 vLLM 或 TGI,big-CPU 上的 llama.cpp / Ollama。通过令牌向您的客户计费。

RAG 后端

CPU VPS 上的 Postgres + pgvector 或 Qdrant,用于嵌入/生成的可选 GPU 盒。 NVMe 意味着矢量查找保持快速。

代理运行时间

长期运行的 LangChain 或 LlamaIndex 代理,可访问 OpenAI/Anthropic API 和您自己的数据。静态 IP 保持工具调用稳定。

图像/视频生成

RTX 级 GPU 上的稳定扩散、SDXL、ComfyUI、视频模型。 NVMe 可让您在几秒钟(而不是几分钟)内交换模型。

微调和培训

LoRA / QLoRA 对数据中心级 GPU 上的 RTX 级全参数训练进行微调。预烘焙 CUDA、NCCL、PyTorch。

包埋工人

在 16-32 GB CPU VPS 上运行句子转换器工作程序以嵌入数百万个文档,而无需支付每次调用的 SaaS 费率。

60s
配置
40 Gbps
上行链路
仅 NVMe
贮存
12
地区
99.95%
正常运行时间服务等级协议
14天
退款

全球网络

12个地区。四大洲。
推理延迟,已解决。

让您的 AI API 靠近您的客户。将一个区域中的 CPU 网关与另一区域中的 GPU 盒配对。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU人工智能计划

量化法学硕士·RAG·嵌入。 CPU够用了。

许多人工智能工作负载都受 CPU 限制。按小时计费 · 所有计划 50% 折扣 · GPU 计划单独列出 /定价.

12 GB DDR5

RAG 后端 · 矢量 DB · 嵌入

$34.98 /月
$69.95/mo −50%
立即部署
14 天退款
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • 奥拉玛 / vLLM CPU
  • 根SSH·KVM
16 GB DDR5

中型CPU推理·API网关

$49.98 /月
$99.95/mo −50%
立即部署
14 天退款
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • 奥拉玛 / vLLM CPU
  • 根SSH·KVM

常见问题解答 — AI VPS

常见问题, 直接的答案。

什么是AI VPS?

AI VPS 是一款针对 AI 工作负载进行大小和配置的 Linux 云服务器 - 用于 CPU 推理和 RAG 的高 RAM 和 EPYC 内核,或用于训练和大型模型服务的 NVIDIA 级 GPU。您可以通过 SSH 登录、安装堆栈并运行。相同的 VPS,不同的工作有不同的形状。

我需要 GPU,还是 CPU 可以工作?

取决于型号。量化 7B 级 LLM(int4 / int8,通过 llama.cpp 或 Ollama)在 16-32 GB CPU 计划上运行非常有用。嵌入模型、矢量数据库(Qdrant、Weaviate、pgvector)和 RAG 管道大多受 CPU 限制。对于训练、更大的模型服务或任何高吞吐量的任务,您需要一个 GPU 计划。

我可以在负载均衡器后面运行推理 API 吗?

是的。在 GPU 机器上运行 vLLM、TGI 或您自己的 FastAPI 服务,在前面放置一个小型 CPU VPS 作为 API 网关和速率限制器。两者在同一区域共享专用网络。 40 Gbps 意味着网关永远不是瓶颈。

我可以托管 RAG 后端吗?

是的——它是最常见的形状之一。 16-32 GB CPU VPS 可以便宜地运行 Postgres + pgvector 或 Qdrant,您可以调用 GPU VPS 或托管 LLM 进行生成。 NVMe 使矢量查询变得快捷,EPYC 在批处理时处理嵌入计算。

支持哪些人工智能框架?

所有的人。 PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX(在适当的硬件上)、Hugging Face Transformers — 通过 conda、pip 或 Docker 安装。在 GPU 计划上预烘焙 CUDA 图像,每个计划都有完整的根。

GPU 是共享的吗?

不会。GPU 计划使用 PCI 直通 — 您预订的 GPU 专用于您的虚拟机、完整内存和完整时钟。 CUDA、NVENC、NCCL 的行为都与裸机上相同。 RTX 级用于经济高效的推理,数据中心级用于高端训练。

我需要多少显存?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size — quantization changes the math, so test before committing to a tier.

有退款保证吗?

是的 — 自购买后 14 天,全额退款,无任何疑问。运行真实的推理延迟测试、真实的 RAG 基准,并在承诺一年之前确定 Cloudzy 是否适合。

配置速度有多快?

确认付款后,您的 AI VPS 将在 60 秒内启动 - CPU 或 GPU。 GPU 计划上预烘焙的 CUDA 图像意味着“nvidia-smi”会在几秒钟内返回。 CPU 计划随 Ubuntu LTS 或 Debian 一起提供 - 只需几分钟即可通过 conda 或 pip 安装您的 AI 堆栈。

我可以在生产中使用它吗?

是的。 99.95% 的正常运行时间 SLA、按小时计费、无承诺、专用 IP 以及无需重建即可实时扩展 RAM/vCPU/存储的选项。我们的许多客户在生产中从 Cloudzy 运行 AI 推理和 RAG API。

当你准备好时。
60 秒内的 AI VPS。

选择您的工作负载需要的形状。用于推理/RAG 的 CPU;用于训练的 GPU。相同的面板。

无需信用卡 · 14 天退款保证 · 随时取消