What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes — for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes — every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes — 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

奥拉马 VPS 托管

运行开源
您的 VPS 上的法学硕士。

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (684 reviews)

基于最新 AMD EPYC 和纯 NVMe 的 Ollama 就绪 VPS。
自2008年独立。 骆驼、米斯特拉尔、Qwen、DeepSeek、Gemma — 全部在您的 IP 下。

4.6· Trustpilot 上有 684 条评论

部署 Ollama VPS 比较计划

开始于 $2.48/mo · 50% 折扣 · 无需信用卡

~ ssh root@ollama-lon-001已连接

根@ollama-lon-001:~# 欧拉马拉 llama3
拉动清单...拉动模型 5.0 GB ✔
根@ollama-lon-001:~# ollama run llama3 “什么是 VPS？”
VPS（虚拟专用服务器）是一种虚拟化服务器
具有自己的操作系统和专用的计算环境
资源，托管在云中...
根@ollama-lon-001:~# _

奥拉玛 VPS 一览

Cloudzy 主机 奥拉马- 准备好的 VPS 12个地区 横跨北美、欧洲、中东和亚洲，起始于 $2.48 per month。计划范围从 512 MB to 64 GB DDR5, 全部开启 NVMe存储 和 40 Gbps 上行链路。 Ollama 一键安装；拉 Llama 3、Mistral、Qwen、DeepSeek、Gemma 并在后面为他们服务 OpenAI 兼容 API。服务器供应于 60 秒。 Cloudzy 自此独立运营 2008 并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

起始价: $2.48 / month
配置: 60秒
地区: 全球12个
正常运行时间服务等级协议: 99.95%
退款: 14天
成立: 2008

为什么建筑商选择 Cloudzy

法学硕士主持人最喜欢的。

买家实际比较我们的四件事——做得正确。

为推理而调整

AMD EPYC（霄龙）、纯 NVMe 存储、DDR5 内存、40 Gbps 上行链路。模型权重在几秒钟内从 NVMe 加载；慢速磁盘不会阻碍您的第一反应。

无风险试用

每个计划均提供 14 天退款保证。没有提出任何问题。没有安装费。随时从仪表板取消。

99.95% 正常运行时间 SLA

跨 12 个区域的自动监控。最近 30 天的 SLA 在 status.cloudzy.com 上公开跟踪 — 没有隐藏在 PR 后面。

24/7 人工支持

实时聊天和票证回复通常不到 5 分钟。工程师，而不是剧本读者。中值分辨率低于 1 小时。

选择您的型号

开放重量模型。
一拉开。

Llama 3 用于安全选择，Mistral 用于一般聊天，Qwen 用于多语言，DeepSeek 用于代码，Gemma 用于小型 CPU 工作。混合搭配 — 全部都在同一个 NVMe 上。

每个计划都支持自定义 GGUF 上传

骆驼3

8B / 70B / 405B

米斯特拉尔

7B / 混合 8x7B

奎文

0.5B – 72B 阿里巴巴

深度搜索

编码员/聊天/R1

芽

2B / 7B 谷歌

披

微软小机型

使用案例

建设者为何选择
Cloudzy 的 Ollama VPS。

您的应用程序的私有 API

在您的专用 IP 上插入 OpenAI 兼容端点。构建聊天功能、摘要器或代理，而无需将用户提示发送给第三方提供商。

后台特工

批量处理电子邮件、抓取网站或自动标记票证的长期运行代理不适合按使用情况定价的 API。固定费用的 VPS 可以。 Cron 工作，打 Ollama，睡觉，重复。

代码助手

在编辑器的 Continue / Tabby 插件后面运行 DeepSeek-Coder 或 Qwen-Coder。快速自动完成，无每次建议成本，无需将代码发送给供应商。

爱好聊天和 RAG 演示

拉取模型、连接 Open WebUI 或 LibreChat、与朋友分享链接。整个堆栈在一个 VPS 上，每月只需几杯咖啡的价格。

合规友好的法学硕士

敏感数据（法律、医疗保健、内部文档）保留在您的 VPS 上。使用 iptables 和 Journald 审核访问 - 您的模型，您的边界。

烘焙您自己的微调

拉动基本权重，在 GPU 盒上进行微调，将 GGUF 运回 CPU Ollama VPS 进行推理。平日服务便宜，仅在训练时挥霍。

60s

配置

40 Gbps

上行链路

仅 NVMe

贮存

地区

99.95%

正常运行时间服务等级协议

14天

退款

全球网络

12个地区。四大洲。
选择你的，拉一个模型。

将推理主机放在用户附近。北美和欧洲的 P50 延迟中位数低于 10 毫秒。

查看全部 12 个地区

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

定价

按使用量付费。就是这样。

每小时、每月或每年。无出口费。没有承诺。现在 50% 折扣所有计划。

1 GB DDR5

微型 CPU 型号 · 1B–3B

$3.48/月

$6.95/mo−50%

立即部署

14 天退款

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
专用 IPv4 + IPv6
一键奥拉玛

2 GB DDR5

CPU 上的 7B / 8B

$7.475/月

$14.95/mo−50%

立即部署

14 天退款

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
专用 IPv4 + IPv6
一键奥拉玛

最受欢迎

4 GB DDR5

中型CPU推理

$14.47/月

$28.95/mo−50%

立即部署

14 天退款

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
专用 IPv4 + IPv6
一键奥拉玛

最受欢迎

8 GB DDR5

更大的上下文 · API 主机

$26.475/月

$52.95/mo−50%

立即部署

14 天退款

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
专用 IPv4 + IPv6
一键奥拉玛

需要更多吗？查看全部 10 个计划（最多 64 GB）

常见问题解答 — 奥拉马 VPS

常见问题，直接的答案。

什么是 Ollama VPS？

Ollama VPS 是一个 Cloudzy 云服务器，设置用于运行 Ollama（本地 LLM 运行时）。拉取 Llama 3、Mistral、Qwen、DeepSeek 或 Gemma 等开源模型；在您自己的 OpenAI 兼容 API 后面为它们提供服务；构建聊天应用程序、代理和工具，而无需向第三方模型提供商发送流量。

Ollama 是否已预装？

Ollama 可以通过面板进行一键安装。选择一个 Linux 模板，二进制文件会出现在您的 PATH 上，“ollama pull llama3”会在一分钟内运行。 HTTP API 默认监听 11434 端口；将其绑定到反向代理后面的专用 IP。

我可以在纯 CPU 的 VPS 上运行 LLM 吗？

是的——对于较小的型号。 Llama 3 8B 和 Mistral 7B 在 16 GB CPU 机箱上运行，Qwen 0.5B–3B 和 Gemma 2B 在 4 GB 上轻松运行。吞吐量取决于模型的大小和提示； CPU 比 GPU 慢，但适合小批量 API、副项目和开发工作。

你们是否为较大型号提供 GPU 计划？

是的。对于 70B 级模型或高吞吐量推理，请参阅我们的 GPU 计划（RTX 4090、RTX 5090、A100）。 4090 通过量化处理 Llama 3 70B； A100 80GB 运行全精度大模型。从定价页面链接。

是否支持OpenAI兼容的API？

是的。 Ollama 公开了一个与 OpenAI 客户端直接兼容的“/v1/chat/completions”端点。将您现有的应用程序指向“http://your-vps:11434/v1”并切换型号名称。相同的 SDK，无需重写。

一个模型需要多少磁盘空间？

这取决于。 4 位量化 7B 模型约为 4 GB。 8B 大约是 5 GB。 4 位的 70B 约为 40 GB。只要有空间，就可以拉出尽可能多的东西。计划从 60 GB NVMe 开始，到 1.5 TB；在一个盒子上混合搭配模型。

配置速度有多快？

付款确认后，您的 VPS 将在 60 秒内上线。通过 Ollama 的一键安装，运行时间再过一分钟就可以了。第一个模型拉取需要更长的时间（网络绑定），但后续模型会在 NVMe 上热缓存。

我可以获得专用 IP 吗？

是的 — 每个 VPS 都配有专用的静态 IPv4 和 IPv6。通过专用 IP 访问 Ollama API，在真实主机名上为 HTTPS 设置 Caddy 反向代理，然后就完成了。浮动IP可用。

有隐藏费用吗？

不会。出口量包含在您的每月传输配额中。快照是免费的。包括 IPv4 + IPv6。包括根访问权限。唯一付费的额外服务是浮动 IP（2.50 美元/月）和超出免费配额的额外快照。

有退款保证吗？

是的 — 自购买后 14 天，无条件全额退款。从面板申请或发送电子邮件至[email protected]。

当你准备好时。
ollama 跑，60 秒内。

选择一个区域，单击，拉取模型。您的私人法学硕士，您的专用IP。

部署 Ollama VPS 比较所有计划

无需信用卡 · 14 天退款保证 · 随时取消

运行开源您的 VPS 上的法学硕士。

法学硕士主持人 最喜欢的。

为推理而调整

无风险试用

99.95% 正常运行时间 SLA

24/7 人工支持

开放重量模型。一拉开。

建设者为何选择Cloudzy 的 Ollama VPS。

您的应用程序的私有 API

后台特工

代码助手

爱好聊天和 RAG 演示

合规友好的法学硕士

烘焙您自己的微调

12个地区。四大洲。选择你的，拉一个模型。

按使用量付费。 就是这样。

常见问题， 直接的答案。

什么是 Ollama VPS？

Ollama 是否已预装？

我可以在纯 CPU 的 VPS 上运行 LLM 吗？

你们是否为较大型号提供 GPU 计划？

是否支持OpenAI兼容的API？

一个模型需要多少磁盘空间？

配置速度有多快？

我可以获得专用 IP 吗？

有隐藏费用吗？

有退款保证吗？

当你准备好时。ollama 跑，60 秒内。

运行开源
您的 VPS 上的法学硕士。

法学硕士主持人最喜欢的。

开放重量模型。
一拉开。

建设者为何选择
Cloudzy 的 Ollama VPS。

12个地区。四大洲。
选择你的，拉一个模型。

按使用量付费。就是这样。

常见问题，直接的答案。

当你准备好时。
ollama 跑，60 秒内。