50% 折扣 所有计划,时间有限。开始于 $2.48/mo

奥拉马 VPS 托管

运行开源
您的 VPS 上的法学硕士。

基于最新 AMD EPYC 和纯 NVMe 的 Ollama 就绪 VPS。
自2008年独立。 骆驼、米斯特拉尔、Qwen、DeepSeek、Gemma — 全部在您的 IP 下。

4.6· Trustpilot 上有 684 条评论

开始于 $2.48/mo · 50% 折扣 · 无需信用卡

~ ssh root@ollama-lon-001已连接
根@ollama-lon-001:~# 欧拉马拉 llama3
拉动清单...拉动模型 5.0 GB ✔
根@ollama-lon-001:~# ollama run llama3 “什么是 VPS?”
VPS(虚拟专用服务器)是一种虚拟化服务器
具有自己的操作系统和专用的计算环境
资源,托管在云中...
根@ollama-lon-001:~# _

奥拉玛 VPS 一览

Cloudzy 主机 奥拉马- 准备好的 VPS 12个地区 横跨北美、欧洲、中东和亚洲,起始于 $2.48 per month。计划范围从 512 MB to 64 GB DDR5, 全部开启 NVMe存储40 Gbps 上行链路。 Ollama 一键安装;拉 Llama 3、Mistral、Qwen、DeepSeek、Gemma 并在后面为他们服务 OpenAI 兼容 API。服务器供应于 60 秒。 Cloudzy 自此独立运营 2008 并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。

起始价
$2.48 / month
配置
60秒
地区
全球12个
正常运行时间服务等级协议
99.95%
退款
14天
成立
2008

为什么建筑商选择 Cloudzy

法学硕士主持人 最喜欢的。

买家实际比较我们的四件事——做得正确。

为推理而调整

AMD EPYC(霄龙)、纯 NVMe 存储、DDR5 内存、40 Gbps 上行链路。模型权重在几秒钟内从 NVMe 加载;慢速磁盘不会阻碍您的第一反应。

无风险试用

每个计划均提供 14 天退款保证。没有提出任何问题。没有安装费。随时从仪表板取消。

99.95% 正常运行时间 SLA

跨 12 个区域的自动监控。最近 30 天的 SLA 在 status.cloudzy.com 上公开跟踪 — 没有隐藏在 PR 后面。

24/7 人工支持

实时聊天和票证回复通常不到 5 分钟。工程师,而不是剧本读者。中值分辨率低于 1 小时。

选择您的型号

开放重量模型。
一拉开。

Llama 3 用于安全选择,Mistral 用于一般聊天,Qwen 用于多语言,DeepSeek 用于代码,Gemma 用于小型 CPU 工作。混合搭配 — 全部都在同一个 NVMe 上。

每个计划都支持自定义 GGUF 上传
骆驼3
8B / 70B / 405B
米斯特拉尔
7B / 混合 8x7B
奎文
0.5B – 72B 阿里巴巴
深度搜索
编码员/聊天/R1
2B / 7B 谷歌
微软小机型

使用案例

建设者为何选择
Cloudzy 的 Ollama VPS。

您的应用程序的私有 API

在您的专用 IP 上插入 OpenAI 兼容端点。构建聊天功能、摘要器或代理,而无需将用户提示发送给第三方提供商。

后台特工

批量处理电子邮件、抓取网站或自动标记票证的长期运行代理不适合按使用情况定价的 API。固定费用的 VPS 可以。 Cron 工作,打 Ollama,睡觉,重复。

代码助手

在编辑器的 Continue / Tabby 插件后面运行 DeepSeek-Coder 或 Qwen-Coder。快速自动完成,无每次建议成本,无需将代码发送给供应商。

爱好聊天和 RAG 演示

拉取模型、连接 Open WebUI 或 LibreChat、与朋友分享链接。整个堆栈在一个 VPS 上,每月只需几杯咖啡的价格。

合规友好的法学硕士

敏感数据(法律、医疗保健、内部文档)保留在您的 VPS 上。使用 iptables 和 Journald 审核访问 - 您的模型,您的边界。

烘焙您自己的微调

拉动基本权重,在 GPU 盒上进行微调,将 GGUF 运回 CPU Ollama VPS 进行推理。平日服务便宜,仅在训练时挥霍。

60s
配置
40 Gbps
上行链路
仅 NVMe
贮存
12
地区
99.95%
正常运行时间服务等级协议
14天
退款

全球网络

12个地区。四大洲。
选择你的,拉一个模型。

将推理主机放在用户附近。北美和欧洲的 P50 延迟中位数低于 10 毫秒。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

定价

按使用量付费。 就是这样。

每小时、每月或每年。无出口费。没有承诺。现在 50% 折扣 所有计划。

1 GB DDR5

微型 CPU 型号 · 1B–3B

$3.48/月
$6.95/mo−50%
立即部署
14 天退款
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • 专用 IPv4 + IPv6
  • 一键奥拉玛
2 GB DDR5

CPU 上的 7B / 8B

$7.475/月
$14.95/mo−50%
立即部署
14 天退款
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • 专用 IPv4 + IPv6
  • 一键奥拉玛

常见问题解答 — 奥拉马 VPS

常见问题, 直接的答案。

什么是 Ollama VPS?

Ollama VPS 是一个 Cloudzy 云服务器,设置用于运行 Ollama(本地 LLM 运行时)。拉取 Llama 3、Mistral、Qwen、DeepSeek 或 Gemma 等开源模型;在您自己的 OpenAI 兼容 API 后面为它们提供服务;构建聊天应用程序、代理和工具,而无需向第三方模型提供商发送流量。

Ollama 是否已预装?

Ollama 可以通过面板进行一键安装。选择一个 Linux 模板,二进制文件会出现在您的 PATH 上,“ollama pull llama3”会在一分钟内运行。 HTTP API 默认监听 11434 端口;将其绑定到反向代理后面的专用 IP。

我可以在纯 CPU 的 VPS 上运行 LLM 吗?

是的——对于较小的型号。 Llama 3 8B 和 Mistral 7B 在 16 GB CPU 机箱上运行,Qwen 0.5B–3B 和 Gemma 2B 在 4 GB 上轻松运行。吞吐量取决于模型的大小和提示; CPU 比 GPU 慢,但适合小批量 API、副项目和开发工作。

你们是否为较大型号提供 GPU 计划?

是的。对于 70B 级模型或高吞吐量推理,请参阅我们的 GPU 计划(RTX 4090、RTX 5090、A100)。 4090 通过量化处理 Llama 3 70B; A100 80GB 运行全精度大模型。从定价页面链接。

是否支持OpenAI兼容的API?

是的。 Ollama 公开了一个与 OpenAI 客户端直接兼容的“/v1/chat/completions”端点。将您现有的应用程序指向“http://your-vps:11434/v1”并切换型号名称。相同的 SDK,无需重写。

一个模型需要多少磁盘空间?

这取决于。 4 位量化 7B 模型约为 4 GB。 8B 大约是 5 GB。 4 位的 70B 约为 40 GB。只要有空间,就可以拉出尽可能多的东西。计划从 60 GB NVMe 开始,到 1.5 TB;在一个盒子上混合搭配模型。

配置速度有多快?

付款确认后,您的 VPS 将在 60 秒内上线。通过 Ollama 的一键安装,运行时间再过一分钟就可以了。第一个模型拉取需要更长的时间(网络绑定),但后续模型会在 NVMe 上热缓存。

我可以获得专用 IP 吗?

是的 — 每个 VPS 都配有专用的静态 IPv4 和 IPv6。通过专用 IP 访问 Ollama API,在真实主机名上为 HTTPS 设置 Caddy 反向代理,然后就完成了。浮动IP可用。

有隐藏费用吗?

不会。出口量包含在您的每月传输配额中。快照是免费的。包括 IPv4 + IPv6。包括根访问权限。唯一付费的额外服务是浮动 IP(2.50 美元/月)和超出免费配额的额外快照。

有退款保证吗?

是的 — 自购买后 14 天,无条件全额退款。从面板申请或发送电子邮件至[email protected]

当你准备好时。
ollama 跑,60 秒内。

选择一个区域,单击,拉取模型。您的私人法学硕士,您的专用IP。

无需信用卡 · 14 天退款保证 · 随时取消