50% 折扣 所有计划,时间有限。开始于 $2.48/mo

GPU VPS 托管

RTX 6000 专业版。 A100。 RTX 5090。
专注,不切片。

完全 GPU 直通 — RTX 6000 Pro、A100、RTX 5090、RTX 4090。预装 CUDA、cuDNN、PyTorch。
NVMe + 40 Gbps 网络。自 2008 年起独立云。

4.6 · Trustpilot 上有 684 条评论

开始于 $506.35/mo · 每年 35% 折扣 · 无需信用卡

~ ssh root@gpu-train-001 已连接
根@gpu-train-001:~# nvidia-smi --query-gpu=名称,内存.总计,driver_version --format=csv
名称、内存总数、驱动程序版本
NVIDIA RTX 6000 Pro,49152 MiB,560.94
根@gpu-train-001:~# python -c“导入火炬;打印(torch.cuda.is_available(),torch.cuda.get_device_name(0))”
真正的 NVIDIA RTX 6000 Pro
根@gpu-train-001:~# python train.py --model llama-3-8b --epochs 3
训练步数 1/2400 · 4.2s/步 · 损失=2.143
根@gpu-train-001:~# _

GPU VPS 概览

Cloudzy 销售 GPU VPS 计划与专用 RTX 6000 Pro、Nvidia A100、RTX 5090、RTX 4090 卡在 1×至4× 配置,开始于 $506.35 per month。 每个计划均预装了最新版本 CUDA, cuDNN, 和 Nvidia 驱动程序,在 AMD EPYC + DDR5 上运行 仅 NVMe 存储和 40 Gbps 上行链路和规定 60秒。 GPU 是专用直通 — 不是 vGPU, 不是 MIG,不共享。 Cloudzy 自此独立运营 2008 并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

起始价
$506.35 / mo
GPU 类型
6000 Pro·A100·5090·4090
配置
1×至4×
CUDA
预装
年度折扣
35% 折扣
退款
14天

为什么 ML 团队选择 Cloudzy

GPU 计算 无趣的方式。

团队从 AWS/GCP/超大规模 GPU 迁移到 Cloudzy 的四个原因。

专用 GPU 直通

完整的物理卡是您的 — 没有 vGPU 切片、没有 MIG 分区、没有与其他租户的争用。 CUDA 核心、VRAM、PCIe 通道,全部专用。

CUDA 就绪图像

最新的 Nvidia 驱动程序、CUDA 工具包和 cuDNN 已预烘焙到 Ubuntu 映像中。 PyTorch、TensorFlow、JAX、Hugging Face — pip 安装即可进行训练。

NVMe + 40 Gbps

纯 NVMe 存储,因此数据集加载不是瓶颈。 40 Gbps 网络意味着拉动 100 GB Hugging Face 模型只需几秒而不是几分钟即可完成。

24/7 人工支持

真正的工程师在聊天。我们已经帮助足够多的团队设置多 GPU 训练、调试 CUDA OOM 并调整 Llama 推理,以便快速返回答案。

GPU阵容

四个家庭。
九种扩展方法。

RTX 6000 Pro 采用 48 GB ECC VRAM 进行专业级推理和渲染。 A100 适用于训练和大型 VRAM 工作负载。 RTX 5090 提供最新推论。 RTX 4090 可实现高达 70B(4 位)的经济高效推理。提供多 GPU 计划 - 选择您的 VRAM 预算需求。

完整的 GPU 直通 — 不切片、不共享
RTX 6000 专业版
48 GB GDDR6 ECC · Pro-grade
英伟达 A100
80 GB HBM2e · ML training
RTX 5090
32 GB GDDR7 · Blackwell
RTX 4090
24 GB GDDR6X · cost-effective
1× 至 4× GPU
提供多 GPU 计划
预装 CUDA
PyTorch·TF·JAX 就绪
纯NVMe
快速数据集 I/O
40 Gbps uplink
30 秒内拉取 100 GB 模型

使用案例

我们的工作负载
客户实际培训。

法学硕士推理

通过 vLLM 或文本生成推理为 Llama 3、Mistral、DeepSeek 或 Qwen 提供服务。 RTX 4090 在 4 位处理 70B,RTX 5090 在 8 位处理 70B,A100 处理非量化。

稳定扩散·图像生成

使用 ComfyUI 或 Automatic1111 运行 SDXL、Flux 或微调的稳定扩散检查点。 RTX 4090 在标准 1024×1024 SDXL 上达到 30+ 图像/分钟。

机器学习训练+微调

LoRA、QLoRA,全面微调。 A100 是 7B-13B 非量化微调的最佳位置; 4× A100 通过适当的分片(FSDP / DeepSpeed)可处理高达 70B 的数据。

3D渲染·搅拌机

RTX 卡上的 Cycles + OptiX 是动画工作室的最快路径。 RTX 4090 上的 24 GB VRAM 覆盖了绝大多数单帧制作场景。

语音+视觉管道

Whisper Large、Faster-Whisper、YOLO、Segment Anything。即使 RTX 4090 计划也可以在这些模型上运行实时推理,并具有舒适的空间。

长时间运行的批处理作业

嵌入生成、检索管道、数据集预处理。按小时付费,运行作业,快照输出,销毁盒子——比在 AWS/GCP 上租用相同的工作负载更便宜。

80 GB
A100显存
40 Gbps
上行链路
CUDA 就绪
图像
4 ×
最大 GPU 数量
35%
年假
14天
退款

定价

特色 GPU 计划。 按小时或按年。

目前按年计费 35% 折扣 在每个 GPU 计划上。

常见问题解答 — GPU VPS

常见问题, 直接的答案。

Cloudzy 提供哪些 GPU?

四个系列:RTX 6000 Pro(1× — 48 GB GDDR6 ECC VRAM,专业级推理和渲染)、Nvidia A100(1× / 2× / 4× — 用于 ML 训练、fp16/bf16 工作负载,每卡 80 GB HBM2e)、RTX 5090(1× / 2× — 较新的 Blackwell 架构,非常适合推理工作负载和渲染)和 RTX 4090(1× / 2× / 4× — 对于稳定扩散、LLM 推理和 3D 渲染来说具有成本效益)。

GPU 是专用的还是共享的?

投入的。每个计划都是完整物理 GPU 的直通 — 不是切片、vGPU、MIG。 CUDA 核心、VRAM、PCIe 带宽,全部由您掌控。多 GPU 计划在物理硬件支持的情况下使用 NVLink(A100 多 GPU 计划)。

CUDA 是否预装?

是的。每个 GPU VPS 都附带最新的稳定 CUDA 工具包、cuDNN 和预烘焙到 Ubuntu 映像中的 Nvidia 驱动程序。 PyTorch、TensorFlow、JAX 和 Hugging Face 堆栈开箱即用。如果您想安装特定版本,您可以重新映像到不带 CUDA 的干净 Ubuntu。

我可以获得多少 VRAM?

每个 GPU:RTX 6000 Pro = 48 GB GDDR6 ECC、A100 = 80 GB HBM2e、RTX 5090 = 32 GB GDDR7、RTX 4090 = 24 GB GDDR6X。多 GPU 计划汇总 — 4× A100 计划拥有 320 GB 总 VRAM。上面的计划列表分别显示了系统 RAM。

我可以在 GPU VPS 上运行 Stable Diffusion / Llama / Whisper 吗?

是的。 1× RTX 4090 计划是一个很好的起点:足够的 VRAM 用于 SDXL 推理、Llama 3 70B(4 位量化)或 Whisper Large。如果您需要运行未量化的 70B 模型或训练 LoRA,请转向 RTX 5090 或 A100。

与 AWS / Google Cloud / Lambda Labs 的定价相比如何?

对于稳态工作负载来说通常更便宜 - 我们不会通过“按需”与“现货”进行价格歧视,并且我们没有出口费用。我们不会引用竞争对手的数据(这些数据每月都会变化)。 14 天退款保证让您可以根据自己的基准与当前提供商进行 A/B 比较。

每年有折扣吗?

是的 — 每个 GPU 计划的年度账单可享受 35% 的折扣(低于常规 CPU 的 50%,因为 GPU 硬件的摊销成本更高)。没有自动续订;您将在每个年度周期之前收到一张发票​​,以便您可以降级、升级或取消,而不会产生意外费用。

那么网络呢?真的是 40 Gbps 吗?

是的。与我们的旗舰云 VPS 相同的 40 Gbps 上行链路,每月传输不超过计划限额,无需支付出口费用。对于将大型数据集移入和移出 GPU 节点非常有用 - 拉取 100 GB Hugging Face 模型以线速大约需要 30 秒。

我可以运行多节点训练(多个 GPU VPS 一起)吗?

是的,在一个区域内。同一数据中心内的 VPS 以亚毫秒级延迟共享本地网络。我们目前不提供 InfiniBand 互连 - 标准以太网上的多节点训练非常适合微调和小规模分布式作业,但在大型预训练方面与裸机 HPC 不具有竞争力。

GPU 计划的退款保证?

14天,没有问任何问题。一个计费周期内退款。有足够的时间来对 CUDA 吞吐量进行基准测试、运行真正的训练步骤,并确定 Cloudzy 是否适合您的工作负载。

停止支付超大规模的价格。
在专用 GPU 上进行训练。

选择一张卡,选择一个区域,然后单击。 CUDA 已经安装。

无需信用卡 · 14 天退款保证 · 随时取消