五折优惠 所有套餐限时优惠,起价 $2.48/mo

ChatGPT VPS 托管

你的专属 AI 服务器,
你说了算。

在 Cloudzy 上自托管开源权重 LLMs 和 AI APIs AMD EPYCNVMe 存储
独立云服务,始于 2008,无供应商锁定,无用量限制。
受信赖于 122,000+ 用户 · 来自 $2.48/mo.

4.6 · 736 reviews on Trustpilot

从...开始 $2.48/mo · 五折优惠 · 无需信用卡

~ ssh root@ai-001 已连接
root@ai-001:~# curl -fsSL https://ollama.ai/install.sh | sh
正在安装 Ollama...
Ollama 安装成功。
root@ai-001:~# ollama pull llama3
正在拉取模型 llama3... 100%
root@ai-001:~# ollama serve &
Listening on 0.0.0.0:11434
root@ai-001:~# _

ChatGPT VPS 概览

Cloudzy 提供 ChatGPT VPS 用于自托管 LLM 和 AI 推理的托管服务,覆盖 12个地区,从...开始 $2.48/mo。所有套餐均运行于 AMD EPYCDDR5 记忆, NVMe 存储和 40 Gbps 上行链路。安装 Ollama、llama.cpp、vLLM 或你自己的推理栈,完整 root 权限,无 API 速率限制。几秒内完成部署, 60秒独立运营以来 2008,评分 4.6/5 by 679+ 评论者 在 Trustpilot 上。

起始价格
$2.48 / month
CPU
AMD EPYC · DDR5
配置
60秒
地区
12 全球
退款
14天
成立
2008

开发者为什么选择 Cloudzy

精通技术的 最喜爱的

买家真正拿来比较我们的四件事,我们都做到位了。

高规格基础设施

最新一代 AMD EPYC 专属存储、NVMe 专属存储、DDR5 内存,40 Gbps 上行带宽。每个套餐层级均具备顶级单线程性能。

无风险试用

每个方案均提供14天无理由退款保障。无需解释原因,无开户费用,随时可在控制台取消。

99.95% 正常运行时间 SLA

全球12个区域自动监控。过去30天的 SLA 数据公开记录于 status.cloudzy.com,没有任何隐瞒。

24/7人工支持

在线客服与工单回复通常在5分钟内响应。由工程师直接处理,不是照本宣科的客服脚本。问题中位解决时间不超过1小时。

可自托管的 AI 工具

开放权重模型, 你的基础设施。

运行任意开放权重模型或 AI 框架。完整 root 权限意味着你可以自由选择技术栈、模型和推理层,无需任何第三方 API 密钥。

Ollama
一条命令启动 LLM 服务
llama.cpp
针对 CPU 优化的推理
vLLM
高吞吐量推理服务
打开WebUI
LLM 聊天界面
LangChain
编排框架
Hugging Face
模型仓库 + Transformers

使用场景

为什么开发者选择
Cloudzy 的 ChatGPT VPS。

私有 ChatGPT 替代方案

在你自己的服务器上运行 Llama 3、Mistral 或 Phi,配合 Open WebUI 提供聊天界面和对话历史,数据始终留在你的 VPS 中。

为你的应用提供 API 后端

在你自己的 REST API 后面部署 LLM,无按 token 计费,无速率限制。可集成到你的 SaaS、机器人或内部工具中。

微调与实验

上传数据集、微调 LoRA 适配器、运行评估。持久化 NVMe 存储确保检查点在重启后依然保留。

RAG 流水线服务器

将本地 LLM 与向量数据库(Chroma、Qdrant、Weaviate)结合,构建检索增强生成服务,所有组件运行在同一台机器上。

多模型对比

同时运行 Llama、Mistral 和 Phi,对比输出结果、响应延迟和生成质量,再决定哪个模型上生产环境。

AI编码助手

在本地部署 Code Llama 或 DeepSeek Coder,通过本地 API 接入你的 IDE。代码补全和对话功能全程不会将代码发送到外部。

60s
配置
40 Gbps
上行链路
NVMe专用
存储
12
地区
99.95%
正常运行时间 SLA
14天
退款

全球网络

12个区域,横跨四大洲。
一键即达。

将你的 ChatGPT VPS 部署在尽可能靠近用户的位置。北美和欧洲的 P50 中位延迟低于 10 ms。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

定价

按实际用量付费。 就这样。

按小时、按月或按年计费。无出站流量费,无绑定承诺。当前 五折优惠 所有套餐

512 MB DDR5

小模型 · 测试

$2.48 /月
$4.95/mo 负50%
立即部署
14 天退款保障
  • 1 vCPU @ EPYC
  • 20 GB NVMe
  • 1 TB · 40 Gbps
  • 专用 IPv4 + IPv6
  • Root SSH · KVM
2 GB DDR5

小型 LLM · 70亿参数

$7.475 /月
$14.95/mo 负50%
立即部署
14 天退款保障
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • 专用 IPv4 + IPv6
  • Root SSH · KVM
8 GB DDR5

13B+ 模型 · RAG 技术栈

$26.475 /月
$52.95/mo 负50%
立即部署
14 天退款保障
  • 4 vCPU @ EPYC
  • 240 GB NVMe
  • 7 TB · 40 Gbps
  • 专用 IPv4 + IPv6
  • Root SSH · KVM

常见问题 — ChatGPT VPS

常见问题 直接答案。

我能在自己的 VPS 上运行 ChatGPT 吗?

ChatGPT 本身是 OpenAI 的专有服务,但你可以在自己的 Cloudzy VPS 上自托管 Llama 3、Mistral、Phi 或 DeepSeek 等开放权重模型。配合 Ollama 和 Open WebUI 等工具,你可以获得类似的对话体验,同时完全掌控数据隐私。

运行 LLM 推理需要多少 RAM?

这取决于模型大小。7B 参数模型(如量化版 Llama 3 8B)需要 4–8 GB RAM。13B 模型需要 8–16 GB。更大的 70B 模型则需要 32–64 GB。小型模型从 4 GB 方案入手,按需升级即可。

运行 LLM 是否需要 GPU?

不需要。llama.cpp 和 Ollama 等工具已针对 AMD EPYC 的 CPU 推理进行了优化。与 GPU 相比,每秒生成的 token 数量会较慢,但对于个人使用、小型团队或异步批处理任务来说,CPU 推理完全够用,而且成本只是 GPU 托管的一小部分。

我可以同时托管多个模型吗?

可以。只要 RAM 足够,你就能通过 Ollama 或 vLLM 同时运行多个模型并在它们之间切换。每个模型按需加载到内存中。16 GB 的方案可以轻松同时运行 2 到 3 个小型模型。

数据隐私方面有什么保障?

所有数据都留在你的 VPS 上。没有任何信息会发送到第三方 API。模型、数据、网络,全部由你掌控。这正是相比托管 AI 服务的核心优势:你的提示词和响应永远不会离开你的服务器。

如何安装 Ollama?

一条命令:curl -fsSL https://ollama.ai/install.sh | sh。然后用 ollama pull llama3 拉取模型,即可开始对话。在全新的 VPS 上,整个过程不超过 5 分钟。

我可以将我的 LLM 作为 API 对外暴露吗?

是的。Ollama 默认在端口 11434 上提供兼容 OpenAI 的 API。vLLM 同样暴露兼容 OpenAI 的接口。将你的应用、机器人或前端指向你的 VPS IP 和端口即可。

正常运行时间保证是多少?

Cloudzy 所有套餐均提供 99.95% 的在线率保障 SLA。冗余网络链路与 40 Gbps 带宽,确保您的 AI 服务器全天候稳定运行。

我可以在这台 VPS 上微调模型吗?

CPU 微调是可行的,但速度较慢。如果是对小型模型(7B)进行 LoRA/QLoRA 微调实验,高 RAM 的 CPU 方案可以胜任。若要对大型模型进行生产级微调,GPU 实例更为实用。

退款政策是什么?

14 天无理由退款保证。部署你的 AI 环境、测试推理速度、做出决定。在控制台或通过客服申请全额退款。

随时可以上手。
AI服务器在60秒内。

无需信用卡 · 14 天退款保证 · 随时取消