50% off 所有套餐限时优惠,起价 $2.48/mo

ChatGPT VPS 托管

你的专属 AI 服务器,
你说了算。

在 Cloudzy 上自托管开源权重 LLMs 和 AI APIs AMD EPYC with NVMe storage.
独立云服务,始于 2008,无供应商锁定,无用量限制。
Trusted by 122,000+ users · from $2.48/mo.

4.6 · 713 reviews on Trustpilot

Starting at $2.48/mo · 五折优惠 · 无需信用卡

~ ssh root@ai-001 connected
root@ai-001:~# curl -fsSL https://ollama.ai/install.sh | sh
Installing Ollama...
Ollama 安装成功。
root@ai-001:~# ollama pull llama3
pulling model llama3... 100%
root@ai-001:~# ollama serve &
Listening on 0.0.0.0:11434
root@ai-001:~# _

ChatGPT VPS 概览

Cloudzy offers ChatGPT VPS 用于自托管 LLM 和 AI 推理的托管服务,覆盖 12 regions, starting at $2.48/mo。所有套餐均运行于 AMD EPYC with DDR5 memory, NVMe storage, and 40 Gbps 上行链路。安装 Ollama、llama.cpp、vLLM 或你自己的推理栈,完整 root 权限,无 API 速率限制。几秒内完成部署, 60 seconds. Independent since 2008, rated 4.6/5 by 679+ reviewers on Trustpilot.

Starting price
$2.48 / month
CPU
AMD EPYC · DDR5
Provisioning
60 seconds
Regions
12 worldwide
Money-back
14 days
Founded
2008

开发者为什么选择 Cloudzy

A tech-savvy favorite.

买家真正拿来比较我们的四件事,我们都做到位了。

高规格基础设施

最新一代 AMD EPYC 专属存储、NVMe 专属存储、DDR5 内存,40 Gbps 上行带宽。每个套餐层级均具备顶级单线程性能。

无风险试用

每个方案均提供14天无理由退款保障。无需解释原因,无开户费用,随时可在控制台取消。

99.95% uptime SLA

全球12个区域自动监控。过去30天的 SLA 数据公开记录于 status.cloudzy.com,没有任何隐瞒。

24/7 human support

在线客服与工单回复通常在5分钟内响应。由工程师直接处理,不是照本宣科的客服脚本。问题中位解决时间不超过1小时。

可自托管的 AI 工具

开放权重模型, your infrastructure.

运行任意开放权重模型或 AI 框架。完整 root 权限意味着你可以自由选择技术栈、模型和推理层,无需任何第三方 API 密钥。

Ollama
一条命令启动 LLM 服务
llama.cpp
针对 CPU 优化的推理
vLLM
高吞吐量推理服务
Open WebUI
LLM 聊天界面
LangChain
Orchestration framework
Hugging Face
模型仓库 + Transformers

Use cases

为什么开发者选择
Cloudzy 的 ChatGPT VPS。

私有 ChatGPT 替代方案

在你自己的服务器上运行 Llama 3、Mistral 或 Phi,配合 Open WebUI 提供聊天界面和对话历史,数据始终留在你的 VPS 中。

为你的应用提供 API 后端

在你自己的 REST API 后面部署 LLM,无按 token 计费,无速率限制。可集成到你的 SaaS、机器人或内部工具中。

微调与实验

上传数据集、微调 LoRA 适配器、运行评估。持久化 NVMe 存储确保检查点在重启后依然保留。

RAG 流水线服务器

将本地 LLM 与向量数据库(Chroma、Qdrant、Weaviate)结合,构建检索增强生成服务,所有组件运行在同一台机器上。

多模型对比

同时运行 Llama、Mistral 和 Phi,对比输出结果、响应延迟和生成质量,再决定哪个模型上生产环境。

AI coding assistant

在本地部署 Code Llama 或 DeepSeek Coder,通过本地 API 接入你的 IDE。代码补全和对话功能全程不会将代码发送到外部。

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12个区域,横跨四大洲。
一键即达。

将你的 ChatGPT VPS 部署在尽可能靠近用户的位置。北美和欧洲的 P50 中位延迟低于 10 ms。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

Pricing

按实际用量付费。 That's it.

按小时、按月或按年计费。无出站流量费,无绑定承诺。当前 50% off all plans.

512 MB DDR5

小模型 · 测试

$2.48 /mo
$4.95/mo −50%
Deploy now
14 天退款保障
  • 1 vCPU @ EPYC
  • 20 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Root SSH · KVM
2 GB DDR5

小型 LLM · 70亿参数

$7.475 /mo
$14.95/mo −50%
Deploy now
14 天退款保障
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Root SSH · KVM
8 GB DDR5

13B+ 模型 · RAG 技术栈

$26.475 /mo
$52.95/mo −50%
Deploy now
14 天退款保障
  • 4 vCPU @ EPYC
  • 240 GB NVMe
  • 7 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Root SSH · KVM

常见问题 — ChatGPT VPS

Common questions, straight answers.

我能在自己的 VPS 上运行 ChatGPT 吗?

ChatGPT 本身是 OpenAI 的专有服务,但你可以在自己的 Cloudzy VPS 上自托管 Llama 3、Mistral、Phi 或 DeepSeek 等开放权重模型。配合 Ollama 和 Open WebUI 等工具,你可以获得类似的对话体验,同时完全掌控数据隐私。

运行 LLM 推理需要多少 RAM?

这取决于模型大小。7B 参数模型(如量化版 Llama 3 8B)需要 4–8 GB RAM。13B 模型需要 8–16 GB。更大的 70B 模型则需要 32–64 GB。小型模型从 4 GB 方案入手,按需升级即可。

运行 LLM 是否需要 GPU?

No. Tools like llama.cpp and Ollama are optimized for CPU inference on AMD EPYC. You get slower tokens-per-second compared to GPU, but for personal use, small teams, or async batch jobs, CPU inference works fine and costs a fraction of GPU hosting.

我可以同时托管多个模型吗?

可以。只要 RAM 足够,你就能通过 Ollama 或 vLLM 同时运行多个模型并在它们之间切换。每个模型按需加载到内存中。16 GB 的方案可以轻松同时运行 2 到 3 个小型模型。

数据隐私方面有什么保障?

所有数据都留在你的 VPS 上。没有任何信息会发送到第三方 API。模型、数据、网络,全部由你掌控。这正是相比托管 AI 服务的核心优势:你的提示词和响应永远不会离开你的服务器。

如何安装 Ollama?

一条命令:curl -fsSL https://ollama.ai/install.sh | sh。然后用 ollama pull llama3 拉取模型,即可开始对话。在全新的 VPS 上,整个过程不超过 5 分钟。

我可以将我的 LLM 作为 API 对外暴露吗?

是的。Ollama 默认在端口 11434 上提供兼容 OpenAI 的 API。vLLM 同样暴露兼容 OpenAI 的接口。将你的应用、机器人或前端指向你的 VPS IP 和端口即可。

正常运行时间保证是多少?

Cloudzy 所有套餐均提供 99.95% 的在线率保障 SLA。冗余网络链路与 40 Gbps 带宽,确保您的 AI 服务器全天候稳定运行。

我可以在这台 VPS 上微调模型吗?

CPU 微调是可行的,但速度较慢。如果是对小型模型(7B)进行 LoRA/QLoRA 微调实验,高 RAM 的 CPU 方案可以胜任。若要对大型模型进行生产级微调,GPU 实例更为实用。

退款政策是什么?

14 天无理由退款保证。部署你的 AI 环境、测试推理速度、做出决定。在控制台或通过客服申请全额退款。

随时可以上手。
AI server in 60 seconds.

无需信用卡 · 14 天退款保证 · 随时取消