What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Ollama VPS 托管服务

运行开源模型
在您的 VPS 上运行 LLMs。

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.7 (769 reviews)

在最新 AMD EPYC 和纯 NVMe 上运行，Ollama 就绪的 VPS。
自2008年以来独立运营。 Llama, Mistral, Qwen, DeepSeek, Gemma，全部使用您自己的 IP。

4.7 · 769 条 Trustpilot 评价

₿ Crypto accepted

部署 Ollama VPS 对比方案

起价 $2.48/mo · 五折优惠 · 无需信用卡

~ ssh root@ollama-lon-001 已连接

root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS 概览

Cloudzy 主持 Ollama现成的 VPS，来自 13 个节点 覆盖北美、欧洲、中东和亚洲,起价 $2.48 每月。方案区间从 512 MB to 64 GB DDR5，全部在 NVMe 存储 与 40 Gbps 上行链接 Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma 并通过 兼容 OpenAI 的 API服务器配置在 60 秒. Cloudzy has operated independently since 2008 评分为 4.7 / 5 by 769+ reviewers Trustpilot 评分。

起价: $2.48 / 月
配置: 60 秒
地区: 全球 13 个
在线率 SLA: 99.95%
退款: 14天
成立: 2008

开发者为何选择 Cloudzy

LLM 主机最喜爱的

买家真正会拿来比较的四件事,我们都做到位了。

专为推理优化

AMD EPYC，仅限NVMe存储，DDR5内存，40 Gbps上行链接。模型权重从NVMe在数秒内加载；磁盘不会拖累您的首次响应。

无风险试用

所有套餐均享 14 天退款保证。无需理由。无安装费。可随时从控制面板取消。

99.95% 在线率 SLA

13 个区域的自动化监控。过去 30 天 SLA 在 status.cloudzy.com 公开追踪,不依赖公关掩饰。

7×24 小时真人支持

在线聊天与工单回复通常在 5 分钟内。是工程师,不是念稿员。中位数解决时间不到 1 小时。

选择您的机型

开源权重模型。
一键拉取，即刻就绪。

Llama 3 适合稳健场景，Mistral 适合通用对话，Qwen 适合多语言任务，DeepSeek 适合代码，Gemma 适合轻量级 CPU 任务。按需组合，全部运行在同一台 NVMe 上。

每个套餐均支持上传自定义 GGUF 文件

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0.5B – 72B 阿里巴巴

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

微软小型模型

使用场景

开发者为何选择
Cloudzy 的 Ollama VPS。

专属于您应用的私有 API

在你的专属 IP 上部署兼容 OpenAI 的接口，直接可用。构建聊天功能、摘要工具或 AI 代理，用户提示词不会流向任何第三方服务商。

后台代理

长时间运行的 agent——批量处理邮件、抓取网站或自动标记工单——并不适合按用量计费的 API。固定费率的 VPS 才是正确选择。设好定时任务，调用 Ollama，等待，循环。

代码助手

在你的编辑器中通过 Continue / Tabby 插件运行 DeepSeek-Coder 或 Qwen-Coder。代码补全响应迅速，无按次计费，代码也不会上传给第三方。

兴趣聊天与 RAG 演示

拉取模型，接入 Open WebUI 或 LibreChat，把链接分享给朋友。整套环境跑在一台 VPS 上，每月费用不过几杯咖啡。

合规友好型 LLMs

敏感数据（法律、医疗、内部文件）始终保存在您的 VPS 上。通过 iptables 和 journald 审计访问记录，模型由您掌控，边界由您定义。

训练你自己的微调模型

拉取基础权重，在 GPU 上完成微调，再将 GGUF 文件部署回 CPU Ollama VPS 进行推理。训练时再按需升配，日常推理保持低成本即可。

60s

配置

40 Gbps

上行链路

NVMe专用

存储

地区

99.95%

在线率 SLA

14 days

退款

全球网络

13 个节点。四大洲覆盖。
选好配置，拉取模型。

将推理节点部署在用户附近。北美和欧洲的 P50 中位延迟低于 10 ms。

查看全部 13 个节点

 us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1 

定价

用多少付多少。就这么简单。

按小时、月或年付费。无出网流量费。无承诺期。当前五折优惠全部方案。

1 GB DDR5

小型 CPU 模型 · 1B–3B

$3.48 /mo

$6.95/mo −50%

立即部署

14 天退款保证

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
独享 IPv4 + IPv6
一键 Ollama

2 GB DDR5

7B / 8B on CPU 上运行

$7.48 /mo

$14.95/mo −50%

立即部署

14 天退款保证

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
独享 IPv4 + IPv6
一键 Ollama

最受欢迎

4 GB DDR5

中型 CPU 推理

$14.48 /mo

$28.95/mo −50%

立即部署

14 天退款保证

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
独享 IPv4 + IPv6
一键 Ollama

最受欢迎

8 GB DDR5

更大上下文 · API 主机

$26.48 /mo

$52.95/mo −50%

立即部署

14 天退款保证

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
独享 IPv4 + IPv6
一键 Ollama

需要更多?查看全部 10 个方案(最高 64 GB)

常见问题

常见问题, 直接回答。

Ollama VPS 是什么？

Ollama VPS 是一台专为运行 Ollama（本地 LLM 运行时）配置的 Cloudzy 云服务器。你可以拉取 Llama 3、Mistral、Qwen、DeepSeek 或 Gemma 等开源模型，通过自己的 OpenAI 兼容 API 对外提供服务，构建聊天应用、智能体和工具，无需将流量发送给第三方模型供应商。

Ollama 是否已预装？

Ollama 可在控制面板中一键安装。选择 Linux 模板后，二进制文件会自动加入 PATH，`ollama pull llama3` 一分钟内即可运行。HTTP API 默认监听 11434 端口，可通过反向代理将其绑定到你的独立 IP。

我能在纯 CPU 的 VPS 上运行 LLM 吗？

可以，适用于较小的模型。Llama 3 8B 和 Mistral 7B 可在 16 GB CPU 的机器上运行，Qwen 0.5B–3B 和 Gemma 2B 在 4 GB 下也能流畅运行。吞吐量取决于模型大小和提示长度。CPU 比 GPU 慢，但对于低并发 API、个人项目和开发测试来说完全够用。

你们是否提供适合大模型的 GPU 套餐？

有。如需运行 70B 级别模型或高吞吐量推理，请查看我们的 GPU 套餐（RTX 4090、RTX 5090、A100）。4090 可配合量化运行 Llama 3 70B，A100 80GB 可运行全精度大模型。详情见定价页面。

是否支持 OpenAI 兼容 API？

支持。Ollama 提供 `/v1/chat/completions` 接口，可直接替换 OpenAI 客户端。将现有应用指向 `http://your-vps:11434/v1`，修改模型名称即可。SDK 不变，无需重写代码。

一个模型需要多少磁盘空间？

视情况而定。4-bit 量化的 7B 模型约占 4 GB，8B 约占 5 GB，70B 的 4-bit 版本约占 40 GB。只要空间够，拉取多少模型都行。套餐磁盘从 60 GB NVMe 起，最高可达 1.5 TB，可在同一台机器上混合部署多个模型。

开通有多快?

付款确认后，你的 VPS 将在 60 秒内上线。Ollama 一键安装完成后，运行时再过约一分钟即可就绪。首次拉取模型耗时较长（受网络速度限制），后续模型会热缓存在 NVMe 上。

我能拿到独享 IP 吗?

每台 VPS 均配备专属静态 IPv4 和 IPv6。通过独立 IP 访问 Ollama API，在前面部署 Caddy 反向代理以实现真实域名的 HTTPS，即可完成配置。也支持浮动 IP。

有隐藏费用吗?

没有。出网流量已含在月度流量额度内。快照免费。IPv4 + IPv6 已包含。Root 访问已包含。唯二付费项是 Floating IP($2.50/月)和超出免费额度的额外快照。

有退款保证吗?

可以。从购买起 14 天内,无理由全额退款。可在面板申请,也可发邮件至 [email protected]。

随时为你准备好。
ollama run, 在60秒内。

选择地区，点击部署，拉取模型。专属 LLM，独立 IP。

部署 Ollama VPS 对比全部方案

无需信用卡 · 14 天退款保证 · 随时取消

运行开源模型 在您的 VPS 上运行 LLMs。

LLM 主机 最喜爱的

专为推理优化

无风险试用

99.95% 在线率 SLA

7×24 小时真人支持

开源权重模型。 一键拉取，即刻就绪。

开发者为何选择 Cloudzy 的 Ollama VPS。

专属于您应用的私有 API

后台代理

代码助手

兴趣聊天与 RAG 演示

合规友好型 LLMs

训练你自己的微调模型

13 个节点。四大洲覆盖。 选好配置，拉取模型。

用多少付多少。 就这么简单。

常见问题, 直接回答。

Ollama VPS 是什么？

Ollama 是否已预装？

我能在纯 CPU 的 VPS 上运行 LLM 吗？

你们是否提供适合大模型的 GPU 套餐？

是否支持 OpenAI 兼容 API？

一个模型需要多少磁盘空间？

开通有多快?

我能拿到独享 IP 吗?

有隐藏费用吗?

有退款保证吗?

随时为你准备好。 ollama run, 在60秒内。

运行开源模型
在您的 VPS 上运行 LLMs。

LLM 主机最喜爱的

开源权重模型。
一键拉取，即刻就绪。

开发者为何选择
Cloudzy 的 Ollama VPS。

13 个节点。四大洲覆盖。
选好配置，拉取模型。

用多少付多少。就这么简单。

随时为你准备好。
ollama run, 在60秒内。