An AI VPS is a Linux cloud server sized and configured for AI workloads — high RAM and EPYC cores for CPU inference and RAG, or NVIDIA-class GPUs for training and large-model serving. You SSH in, install your stack, and run. Same VPS, different shapes for different jobs.

Do I need a GPU, or will CPU work?

Depends on the model. Quantized 7B-class LLMs (int4 / int8 via llama.cpp or Ollama) run usefully on a 16–32 GB CPU plan. Embedding models, vector databases (Qdrant, Weaviate, pgvector), and RAG pipelines are mostly CPU-bound. For training, larger model serving, or anything throughput-heavy, you want a GPU plan.

Can I run an inference API behind a load balancer?

Yes. Run vLLM, TGI, or your own FastAPI service on a GPU box, put a small CPU VPS in front as the API gateway and rate limiter. Both share a private network in the same region. 40 Gbps means the gateway is never the bottleneck.

Can I host a RAG backend?

Yes — and it's one of the most common shapes. A 16–32 GB CPU VPS runs Postgres + pgvector or Qdrant cheaply, you call out to a GPU VPS or hosted LLM for generation. NVMe makes vector queries snappy, EPYC handles the embedding compute when you batch.

Which AI frameworks are supported?

All of them. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (on the appropriate hardware), Hugging Face Transformers — install via conda, pip, or Docker. Pre-baked CUDA images on the GPU plans, full root on every plan.

No. GPU plans use PCI passthrough — the GPU you book is dedicated to your VM, full memory and full clocks. CUDA, NVENC, NCCL all behave the same as on a bare-metal box. RTX-class for cost-effective inference, datacenter-class for high-end training.

Is there a money-back guarantee?

Yes — 14 days from purchase, full refund, no questions asked. Run your real inference latency test, your real RAG benchmark, and decide if Cloudzy fits before you commit to a year.

How fast is provisioning?

Once payment is confirmed, your AI VPS is live in 60 seconds — CPU or GPU. Pre-baked CUDA images on GPU plans mean `nvidia-smi` returns within seconds. CPU plans ship with Ubuntu LTS or Debian — install your AI stack via conda or pip in a few minutes.

Can I use this in production?

Yes. 99.95% uptime SLA, hourly billing, no commitments, dedicated IPs, and the option to scale RAM/vCPU/storage live without rebuild. Many of our customers run AI inference and RAG APIs in production from Cloudzy.

人工智能VPS托管

人工智能工作负载，
选择你的形状。

Name: Cloudzy AI VPS Hosting
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (684 reviews)

用于推理/RAG 的高 RAM CPU，或用于训练的 NVIDIA 级 GPU — 相同的 VPS 面板。
独立云，自 2008 年起。2.48 美元/月起 · 60 秒内完成 root SSH。

4.6 · Trustpilot 上有 684 条评论

部署CPU AI VPS 查看 GPU 计划

中央处理器从 $2.48/mo · GPU 计划定价 · 14天退款

~ ssh root@ai-nyc-001 已连接

root@ai-nyc-001:~# 卷曲-fsSL https://ollama.com/install.sh |嘘
安装 Ollama 运行时...完成
root@ai-nyc-001:~# ollama 运行 llama3.1:8b-instruct-q4
拉取清单·下载 4.7 GB 到 NVMe
模型准备就绪 · CPU 推理开始
root@ai-nyc-001:~# 卷曲本地主机：11434/api/generate -d '...'
{"response":"您好！今天需要什么帮助吗？"}
root@ai-nyc-001:~# _

AI VPS 一览

Cloudzy 提供两种形式的 AI VPS 托管 — 高 RAM 用于量化 LLM 推理、RAG 和管道的 CPU 计划，以及 NVIDIA 级 用于训练和大型模型服务的 GPU 计划。计划继续进行 AMD 霄龙, NVMe存储，和 40 Gbps 上行链路跨越 12个地区。 CPU 启动于 $2.48 per month;配置需要 60 秒; CUDA 图像是在 GPU 计划上预烘焙的。 Cloudzy 自此独立运营 2008, 服务 122,000+ 开发者，并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

CPU 启动于: $2.48 / month
GPU 类型: RTX·专业版
配置: 60秒
地区: 全球12个
正常运行时间服务等级协议: 99.95%
退款: 14天

为什么 AI 构建者选择 Cloudzy

一朵云船舶人工智能。

您的人工智能工作负载属于这里的四个原因。

AMD EPYC（霄龙）+ NVMe

用于 CPU 推理的最新 EPYC，用于快速模型加载的 NVMe。 GPU 计划上通过 PCI 直通的专用 GPU。

14 天退款

在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO，请在 14 天内退款。

99.95% 正常运行时间

生产 AI API 需要一台在高峰期间不会重新启动的主机。最近 30 天的 SLA 在 status.cloudzy.com 上公开跟踪。

工程师在聊天

纠结于 CUDA 版本、NCCL 错误或 vLLM 调整？具有人工智能工作负载经验的工程师只需几分钟而不是几小时。

人工智能堆栈

带什么框架。
它运行了。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang — 全部运行干净。预烤 GPU 上的 CUDA 图像计划跳过驱动程序舞蹈。 CPU 计划处理量化推理和廉价地安置工人。

Docker + nvidia-container-toolkit 已准备好 GPU 计划

火炬

中央处理器和图形处理器

TensorFlow

中央处理器和图形处理器

法学硕士

GPU 法学硕士服务

奥拉马

CPU + GPU 法学硕士

抱脸

变形金刚·扩散器

PG向量

RAG矢量商店

奎德兰特

矢量数据库

浪链

代理框架

使用案例

AI 团队依靠什么运行
多云的。

LLM 推理 API

在您自己的 OpenAI 兼容端点后面提供量化的 7B–70B 级 LLM。 GPU 上的 vLLM 或 TGI，big-CPU 上的 llama.cpp / Ollama。通过令牌向您的客户计费。

RAG 后端

CPU VPS 上的 Postgres + pgvector 或 Qdrant，用于嵌入/生成的可选 GPU 盒。 NVMe 意味着矢量查找保持快速。

代理运行时间

长期运行的 LangChain 或 LlamaIndex 代理，可访问 OpenAI/Anthropic API 和您自己的数据。静态 IP 保持工具调用稳定。

图像/视频生成

RTX 级 GPU 上的稳定扩散、SDXL、ComfyUI、视频模型。 NVMe 可让您在几秒钟（而不是几分钟）内交换模型。

微调和培训

LoRA / QLoRA 对数据中心级 GPU 上的 RTX 级全参数训练进行微调。预烘焙 CUDA、NCCL、PyTorch。

包埋工人

在 16-32 GB CPU VPS 上运行句子转换器工作程序以嵌入数百万个文档，而无需支付每次调用的 SaaS 费率。

60s

配置

40 Gbps

上行链路

仅 NVMe

贮存

地区

99.95%

正常运行时间服务等级协议

14天

退款

全球网络

12个地区。四大洲。
推理延迟，已解决。

让您的 AI API 靠近您的客户。将一个区域中的 CPU 网关与另一区域中的 GPU 盒配对。

查看全部 12 个地区

 us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1 

CPU人工智能计划

量化法学硕士·RAG·嵌入。 CPU够用了。

许多人工智能工作负载都受 CPU 限制。按小时计费 · 所有计划 50% 折扣 · GPU 计划单独列出 /定价.

最受欢迎

4 GB DDR5

量化7B推理·CPU

$14.47 /月

$28.95/mo −50%

立即部署

14 天退款

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
奥拉玛 / vLLM CPU
根SSH·KVM

12 GB DDR5

RAG 后端 · 矢量 DB · 嵌入

$34.98 /月

$69.95/mo −50%

立即部署

14 天退款

4 vCPU @ EPYC
300 GB NVMe
8 TB · 40 Gbps
奥拉玛 / vLLM CPU
根SSH·KVM

16 GB DDR5

中型CPU推理·API网关

$49.98 /月

$99.95/mo −50%

立即部署

14 天退款

8 vCPU @ EPYC
350 GB NVMe
10 TB · 40 Gbps
奥拉玛 / vLLM CPU
根SSH·KVM

最受欢迎

24 GB DDR5

大 RAM CPU · 代理 · 管道

$69.97 /月

$139.95/mo −50%

立即部署

14 天退款

8 vCPU @ EPYC
450 GB NVMe
12 TB · 40 Gbps
奥拉玛 / vLLM CPU
根SSH·KVM

需要 GPU 吗？查看 GPU 计划

常见问题解答 — AI VPS

常见问题，直接的答案。

什么是AI VPS？

AI VPS 是一款针对 AI 工作负载进行大小和配置的 Linux 云服务器 - 用于 CPU 推理和 RAG 的高 RAM 和 EPYC 内核，或用于训练和大型模型服务的 NVIDIA 级 GPU。您可以通过 SSH 登录、安装堆栈并运行。相同的 VPS，不同的工作有不同的形状。

我需要 GPU，还是 CPU 可以工作？

取决于型号。量化 7B 级 LLM（int4 / int8，通过 llama.cpp 或 Ollama）在 16-32 GB CPU 计划上运行非常有用。嵌入模型、矢量数据库（Qdrant、Weaviate、pgvector）和 RAG 管道大多受 CPU 限制。对于训练、更大的模型服务或任何高吞吐量的任务，您需要一个 GPU 计划。

我可以在负载均衡器后面运行推理 API 吗？

是的。在 GPU 机器上运行 vLLM、TGI 或您自己的 FastAPI 服务，在前面放置一个小型 CPU VPS 作为 API 网关和速率限制器。两者在同一区域共享专用网络。 40 Gbps 意味着网关永远不是瓶颈。

我可以托管 RAG 后端吗？

是的——它是最常见的形状之一。 16-32 GB CPU VPS 可以便宜地运行 Postgres + pgvector 或 Qdrant，您可以调用 GPU VPS 或托管 LLM 进行生成。 NVMe 使矢量查询变得快捷，EPYC 在批处理时处理嵌入计算。

支持哪些人工智能框架？

所有的人。 PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX（在适当的硬件上）、Hugging Face Transformers — 通过 conda、pip 或 Docker 安装。在 GPU 计划上预烘焙 CUDA 图像，每个计划都有完整的根。

GPU 是共享的吗？

不会。GPU 计划使用 PCI 直通 — 您预订的 GPU 专用于您的虚拟机、完整内存和完整时钟。 CUDA、NVENC、NCCL 的行为都与裸机上相同。 RTX 级用于经济高效的推理，数据中心级用于高端训练。

我需要多少显存？

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size — quantization changes the math, so test before committing to a tier.

有退款保证吗？

是的 — 自购买后 14 天，全额退款，无任何疑问。运行真实的推理延迟测试、真实的 RAG 基准，并在承诺一年之前确定 Cloudzy 是否适合。

配置速度有多快？

确认付款后，您的 AI VPS 将在 60 秒内启动 - CPU 或 GPU。 GPU 计划上预烘焙的 CUDA 图像意味着“nvidia-smi”会在几秒钟内返回。 CPU 计划随 Ubuntu LTS 或 Debian 一起提供 - 只需几分钟即可通过 conda 或 pip 安装您的 AI 堆栈。

我可以在生产中使用它吗？

是的。 99.95% 的正常运行时间 SLA、按小时计费、无承诺、专用 IP 以及无需重建即可实时扩展 RAM/vCPU/存储的选项。我们的许多客户在生产中从 Cloudzy 运行 AI 推理和 RAG API。

当你准备好时。
60 秒内的 AI VPS。

选择您的工作负载需要的形状。用于推理/RAG 的 CPU；用于训练的 GPU。相同的面板。

部署CPU AI VPS 查看 GPU 计划

无需信用卡 · 14 天退款保证 · 随时取消

人工智能工作负载， 选择你的形状。

一朵云 船舶人工智能。

AMD EPYC（霄龙）+ NVMe

14 天退款

99.95% 正常运行时间

工程师在聊天

带什么框架。 它运行了。

AI 团队依靠什么运行 多云的。

LLM 推理 API

RAG 后端

代理运行时间

图像/视频生成

微调和培训

包埋工人

12个地区。四大洲。 推理延迟，已解决。

量化法学硕士·RAG·嵌入。 CPU够用了。

常见问题， 直接的答案。

什么是AI VPS？

我需要 GPU，还是 CPU 可以工作？

我可以在负载均衡器后面运行推理 API 吗？

我可以托管 RAG 后端吗？

支持哪些人工智能框架？

GPU 是共享的吗？

我需要多少显存？

有退款保证吗？

配置速度有多快？

我可以在生产中使用它吗？

当你准备好时。 60 秒内的 AI VPS。

人工智能工作负载，
选择你的形状。

一朵云船舶人工智能。

带什么框架。
它运行了。

AI 团队依靠什么运行
多云的。

12个地区。四大洲。
推理延迟，已解决。

常见问题，直接的答案。

当你准备好时。
60 秒内的 AI VPS。