Which GPUs does Cloudzy offer?

Four families: RTX 6000 Pro (1× — 48 GB GDDR6 ECC VRAM, pro-grade for inference and rendering), Nvidia A100 (1× / 2× / 4× — for ML training, fp16/bf16 workloads, and 80 GB HBM2e per card), RTX 5090 (1× / 2× — newer Blackwell architecture, ideal for inference workloads and rendering), and RTX 4090 (1× / 2× / 4× — cost-effective for Stable Diffusion, LLM inference, and 3D rendering).

Are the GPUs dedicated or shared?

Dedicated. Each plan is a passthrough of the full physical GPU(s) — not a slice, not vGPU, not MIG. The CUDA cores, the VRAM, the PCIe bandwidth, all yours. Multi-GPU plans use NVLink where the physical hardware supports it (A100 multi-GPU plans).

Is CUDA pre-installed?

Yes. Every GPU VPS ships with the latest stable CUDA toolkit, cuDNN, and Nvidia drivers pre-baked into the Ubuntu image. PyTorch, TensorFlow, JAX, and the Hugging Face stack run out of the box. You can re-image to a clean Ubuntu without CUDA if you want to install a specific version.

How much VRAM do I get?

Per GPU: RTX 6000 Pro = 48 GB GDDR6 ECC, A100 = 80 GB HBM2e, RTX 5090 = 32 GB GDDR7, RTX 4090 = 24 GB GDDR6X. Multi-GPU plans aggregate that — a 4× A100 plan has 320 GB total VRAM. The plan list above shows system RAM separately.

Can I run Stable Diffusion / Llama / Whisper on a GPU VPS?

Yes. The 1× RTX 4090 plan is a good starting point: enough VRAM for SDXL inference, Llama 3 70B (4-bit quantized), or Whisper Large. Bump to RTX 5090 or A100 if you need to run unquantized 70B models or train LoRAs.

How does the pricing compare to AWS / Google Cloud / Lambda Labs?

Generally cheaper for steady-state workloads — we don't price-discriminate by 'on-demand' vs 'spot' and we don't have egress fees. We won't quote competitor numbers (those change monthly). The 14-day money-back guarantee lets you A/B against your current provider with your own benchmarks.

Is there an annual discount?

Yes — 35% off annual billing on every GPU plan (lower than the 50% on regular CPU because GPU hardware costs more to amortize). No auto-renewal; you'll get an invoice before each yearly cycle so you can downgrade, upgrade, or cancel without surprise charges.

What about networking? Is it really 40 Gbps?

Yes. Same 40 Gbps uplinks as our flagship Cloud VPS, with no egress fees on monthly transfer up to the plan allowance. Useful for moving large datasets in and out of the GPU node — pulling a 100 GB Hugging Face model takes about 30 seconds at line rate.

Can I run multi-node training (multiple GPU VPS together)?

Yes within a region. VPS in the same datacenter share the local network with sub-millisecond latency. We don't currently offer InfiniBand interconnect — multi-node training over standard Ethernet is fine for fine-tuning and small-scale distributed jobs but isn't competitive with bare-metal HPC for large pre-training.

Money-back guarantee on GPU plans?

14 days, no questions asked. Refund within one billing cycle. Plenty of time to benchmark CUDA throughput, run a real training step, and decide if Cloudzy is the right fit for your workload.

GPU VPS 托管

RTX 6000 专业版。 A100。 RTX 5090。
专注，不切片。

Name: Cloudzy GPU VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (684 reviews)

完全 GPU 直通 — RTX 6000 Pro、A100、RTX 5090、RTX 4090。预装 CUDA、cuDNN、PyTorch。
NVMe + 40 Gbps 网络。自 2008 年起独立云。

4.6 · Trustpilot 上有 684 条评论

部署GPU VPS 比较 GPU 计划

开始于 $506.35/mo · 每年 35% 折扣 · 无需信用卡

~ ssh root@gpu-train-001 已连接

根@gpu-train-001:~# nvidia-smi --query-gpu=名称，内存.总计，driver_version --format=csv
名称、内存总数、驱动程序版本
NVIDIA RTX 6000 Pro，49152 MiB，560.94
根@gpu-train-001:~# python -c“导入火炬；打印（torch.cuda.is_available（），torch.cuda.get_device_name（0））”
真正的 NVIDIA RTX 6000 Pro
根@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
→ 训练步数 1/2400 · 4.2s/步 · 损失=2.143
根@gpu-train-001:~# _

GPU VPS 概览

Cloudzy 销售 GPU VPS 计划与专用 RTX 6000 Pro、Nvidia A100、RTX 5090、 和 RTX 4090 卡在 1×至4× 配置，开始于 $506.35 per month。每个计划均预装了最新版本 CUDA, cuDNN, 和 Nvidia 驱动程序，在 AMD EPYC + DDR5 上运行 仅 NVMe 存储和 40 Gbps 上行链路和规定 60秒。 GPU 是专用直通 — 不是 vGPU，不是 MIG，不共享。 Cloudzy 自此独立运营 2008 并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

起始价: $506.35 / mo
GPU 类型: 6000 Pro·A100·5090·4090
配置: 1×至4×
CUDA: 预装
年度折扣: 35% 折扣
退款: 14天

为什么 ML 团队选择 Cloudzy

GPU 计算无趣的方式。

团队从 AWS/GCP/超大规模 GPU 迁移到 Cloudzy 的四个原因。

专用 GPU 直通

完整的物理卡是您的 — 没有 vGPU 切片、没有 MIG 分区、没有与其他租户的争用。 CUDA 核心、VRAM、PCIe 通道，全部专用。

CUDA 就绪图像

最新的 Nvidia 驱动程序、CUDA 工具包和 cuDNN 已预烘焙到 Ubuntu 映像中。 PyTorch、TensorFlow、JAX、Hugging Face — pip 安装即可进行训练。

NVMe + 40 Gbps

纯 NVMe 存储，因此数据集加载不是瓶颈。 40 Gbps 网络意味着拉动 100 GB Hugging Face 模型只需几秒而不是几分钟即可完成。

24/7 人工支持

真正的工程师在聊天。我们已经帮助足够多的团队设置多 GPU 训练、调试 CUDA OOM 并调整 Llama 推理，以便快速返回答案。

GPU阵容

四个家庭。
九种扩展方法。

RTX 6000 Pro 采用 48 GB ECC VRAM 进行专业级推理和渲染。 A100 适用于训练和大型 VRAM 工作负载。 RTX 5090 提供最新推论。 RTX 4090 可实现高达 70B（4 位）的经济高效推理。提供多 GPU 计划 - 选择您的 VRAM 预算需求。

完整的 GPU 直通 — 不切片、不共享

RTX 6000 专业版

48 GB GDDR6 ECC · Pro-grade

英伟达 A100

80 GB HBM2e · ML training

RTX 5090

32 GB GDDR7 · Blackwell

RTX 4090

24 GB GDDR6X · cost-effective

1× 至 4× GPU

提供多 GPU 计划

预装 CUDA

PyTorch·TF·JAX 就绪

纯NVMe

快速数据集 I/O

40 Gbps uplink

30 秒内拉取 100 GB 模型

使用案例

我们的工作负载
客户实际培训。

法学硕士推理

通过 vLLM 或文本生成推理为 Llama 3、Mistral、DeepSeek 或 Qwen 提供服务。 RTX 4090 在 4 位处理 70B，RTX 5090 在 8 位处理 70B，A100 处理非量化。

稳定扩散·图像生成

使用 ComfyUI 或 Automatic1111 运行 SDXL、Flux 或微调的稳定扩散检查点。 RTX 4090 在标准 1024×1024 SDXL 上达到 30+ 图像/分钟。

机器学习训练+微调

LoRA、QLoRA，全面微调。 A100 是 7B-13B 非量化微调的最佳位置； 4× A100 通过适当的分片（FSDP / DeepSpeed）可处理高达 70B 的数据。

3D渲染·搅拌机

RTX 卡上的 Cycles + OptiX 是动画工作室的最快路径。 RTX 4090 上的 24 GB VRAM 覆盖了绝大多数单帧制作场景。

语音+视觉管道

Whisper Large、Faster-Whisper、YOLO、Segment Anything。即使 RTX 4090 计划也可以在这些模型上运行实时推理，并具有舒适的空间。

长时间运行的批处理作业

嵌入生成、检索管道、数据集预处理。按小时付费，运行作业，快照输出，销毁盒子——比在 AWS/GCP 上租用相同的工作负载更便宜。

80 GB

A100显存

40 Gbps

上行链路

CUDA 就绪

图像

4 ×

最大 GPU 数量

35%

年假

14天

退款

定价

特色 GPU 计划。按小时或按年。

目前按年计费 35% 折扣在每个 GPU 计划上。

最受欢迎

1× RTX 6000 Pro

48 GB GDDR6 ECC VRAM

$845 /月

$1300/mo -35%

立即部署

14 天退款

200 GB DDR5
24 vCPU
1.3 TB NVMe NVMe
20 TB · 40 Gbps
预装 CUDA

查看所有 9 个 GPU 计划（1× 至 4× 卡）

常见问题解答 — GPU VPS

常见问题，直接的答案。

Cloudzy 提供哪些 GPU？

四个系列：RTX 6000 Pro（1× — 48 GB GDDR6 ECC VRAM，专业级推理和渲染）、Nvidia A100（1× / 2× / 4× — 用于 ML 训练、fp16/bf16 工作负载，每卡 80 GB HBM2e）、RTX 5090（1× / 2× — 较新的 Blackwell 架构，非常适合推理工作负载和渲染）和 RTX 4090（1× / 2× / 4× — 对于稳定扩散、LLM 推理和 3D 渲染来说具有成本效益）。

GPU 是专用的还是共享的？

投入的。每个计划都是完整物理 GPU 的直通 — 不是切片、vGPU、MIG。 CUDA 核心、VRAM、PCIe 带宽，全部由您掌控。多 GPU 计划在物理硬件支持的情况下使用 NVLink（A100 多 GPU 计划）。

CUDA 是否预装？

是的。每个 GPU VPS 都附带最新的稳定 CUDA 工具包、cuDNN 和预烘焙到 Ubuntu 映像中的 Nvidia 驱动程序。 PyTorch、TensorFlow、JAX 和 Hugging Face 堆栈开箱即用。如果您想安装特定版本，您可以重新映像到不带 CUDA 的干净 Ubuntu。

我可以获得多少 VRAM？

每个 GPU：RTX 6000 Pro = 48 GB GDDR6 ECC、A100 = 80 GB HBM2e、RTX 5090 = 32 GB GDDR7、RTX 4090 = 24 GB GDDR6X。多 GPU 计划汇总 — 4× A100 计划拥有 320 GB 总 VRAM。上面的计划列表分别显示了系统 RAM。

我可以在 GPU VPS 上运行 Stable Diffusion / Llama / Whisper 吗？

是的。 1× RTX 4090 计划是一个很好的起点：足够的 VRAM 用于 SDXL 推理、Llama 3 70B（4 位量化）或 Whisper Large。如果您需要运行未量化的 70B 模型或训练 LoRA，请转向 RTX 5090 或 A100。

与 AWS / Google Cloud / Lambda Labs 的定价相比如何？

对于稳态工作负载来说通常更便宜 - 我们不会通过“按需”与“现货”进行价格歧视，并且我们没有出口费用。我们不会引用竞争对手的数据（这些数据每月都会变化）。 14 天退款保证让您可以根据自己的基准与当前提供商进行 A/B 比较。

每年有折扣吗？

是的 — 每个 GPU 计划的年度账单可享受 35% 的折扣（低于常规 CPU 的 50%，因为 GPU 硬件的摊销成本更高）。没有自动续订；您将在每个年度周期之前收到一张发票，以便您可以降级、升级或取消，而不会产生意外费用。

那么网络呢？真的是 40 Gbps 吗？

是的。与我们的旗舰云 VPS 相同的 40 Gbps 上行链路，每月传输不超过计划限额，无需支付出口费用。对于将大型数据集移入和移出 GPU 节点非常有用 - 拉取 100 GB Hugging Face 模型以线速大约需要 30 秒。

我可以运行多节点训练（多个 GPU VPS 一起）吗？

是的，在一个区域内。同一数据中心内的 VPS 以亚毫秒级延迟共享本地网络。我们目前不提供 InfiniBand 互连 - 标准以太网上的多节点训练非常适合微调和小规模分布式作业，但在大型预训练方面与裸机 HPC 不具有竞争力。

GPU 计划的退款保证？

14天，没有问任何问题。一个计费周期内退款。有足够的时间来对 CUDA 吞吐量进行基准测试、运行真正的训练步骤，并确定 Cloudzy 是否适合您的工作负载。

停止支付超大规模的价格。
在专用 GPU 上进行训练。

选择一张卡，选择一个区域，然后单击。 CUDA 已经安装。