What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Ollama VPS Hosting

Chạy mã nguồn mở
LLMs trên VPS của bạn.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (735 reviews)

Sẵn sàng cho AI trên AMD EPYC thế hệ mới nhất và NVMe thuần túy.
Độc lập từ năm 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, tất cả dưới IP của bạn.

4.6· 735 reviews on Trustpilot

Triển khai một Ollama VPS So sánh các gói

Bắt đầu từ $2.48/mo · Giảm 50% · Không cần thẻ tín dụng

~ ssh root@ollama-lon-001kết nối

root@ollama-lon-001:~# ollama pull llama3
đang tải manifest... đang tải model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "VPS là gì?"
A VPS, hay Máy Chủ Riêng Ảo, là một máy chủ được ảo hóa
môi trường điện toán với hệ điều hành riêng và tài nguyên chuyên dụng
tài nguyên, được lưu trữ trên đám mây...
root@ollama-lon-001:~# _

Cloudzy tóm lược

Cloudzy lưu trữ OllamaVPS VPS sẵn sàng từ 12 vùng trải dài Bắc Mỹ, châu Âu, Trung Đông và châu Á, bắt đầu từ $2.48 per month. Gói dịch vụ từ 512 MB to 64 GB DDR5, tất cả trên Lưu trữ NVMe với 40 Gbps kết nối uplink. Ollama cài đặt chỉ với một cú nhấp; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma và phục vụ chúng phía sau một Tương thích OpenAI APICấp phát máy chủ trong 60 giây. Cloudzy hoạt động độc lập từ năm 2008 và được xếp hạng 4.6 / 5 by 735+ reviewers trên Trustpilot.

Giá bắt đầu: $2.48 / month
Cấp phát: 60 giây
Các vùng: 12 trên toàn thế giới
Thời gian hoạt động SLA: 99.95%
Hoàn lại tiền: 14 ngày
Được thành lập: 2008

Tại sao developers chọn Cloudzy

Một máy chủ LLM yêu thích

Bốn tiêu chí người dùng thực sự so sánh - chúng tôi làm tốt cả bốn.

Tối ưu cho inference

AMD EPYC, lưu trữ NVMe độc quyền, bộ nhớ DDR5, liên kết tăng tốc 40 Gbps. Trọng số mô hình tải từ NVMe trong vài giây; không có đĩa chậm làm tắc nghẽn phản hồi đầu tiên của bạn.

Dùng thử không rủi ro

Bảo đảm hoàn tiền trong 14 ngày với mọi gói. Không cần giải thích. Không phí cài đặt. Hủy từ dashboard bất cứ lúc nào.

99.95% thời gian hoạt động SLA

Giám sát tự động tại 12 khu vực. Chỉ số SLA 30 ngày gần nhất được công khai tại status.cloudzy.com - không che giấu sau màn PR.

Hỗ trợ con người 24/7

Chat trực tiếp và phản hồi ticket thường dưới 5 phút. Kỹ sư thực sự xử lý, không phải đọc kịch bản. Thời gian giải quyết trung bình dưới 1 giờ.

Chọn cấu hình của bạn

Mô hình mã nguồn mở.
Một cái kéo là xong.

Llama 3 nếu muốn an toàn, Mistral cho chat tổng quát, Qwen cho đa ngôn ngữ, DeepSeek cho code, Gemma cho các tác vụ CPU nhỏ gọn. Tùy ý kết hợp, tất cả trên cùng một NVMe.

Hỗ trợ tải lên GGUF tùy chỉnh trên mọi gói dịch vụ

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Các mô hình nhỏ của Microsoft

Các trường hợp sử dụng

Lý do các developer chọn
VPS Ollama của Cloudzy.

Private API cho ứng dụng của bạn

Endpoint tương thích OpenAI trên IP riêng của bạn. Xây dựng tính năng chat, tóm tắt nội dung hoặc agent mà không cần gửi dữ liệu người dùng đến bên thứ ba.

Các agent chạy ngầm

Các agent chạy dài để xử lý email hàng loạt, thu thập dữ liệu trang web, hay tự động gắn nhãn ticket không phù hợp với các API tính phí theo lượng dùng. Một VPS phí cố định thì phù hợp. Lên lịch cron, gọi Ollama, nghỉ, lặp lại.

Trợ lý mã hóa

Chạy DeepSeek-Coder hoặc Qwen-Coder làm backend cho plugin Continue / Tabby trong editor của bạn. Tự động hoàn thành nhanh, không tính phí theo từng gợi ý, code không gửi ra ngoài cho bên thứ ba.

Dự án chat & demo RAG cá nhân

Kéo model về, kết nối Open WebUI hoặc LibreChat, rồi chia sẻ link cho bạn bè. Toàn bộ stack chạy trên một VPS với giá chỉ bằng vài ly cà phê mỗi tháng.

LLM thân thiện với tuân thủ

Dữ liệu nhạy cảm (pháp lý, y tế, tài liệu nội bộ) luôn nằm trên VPS của bạn. Kiểm soát truy cập bằng iptables và journald - mô hình của bạn, phạm vi bảo mật của bạn.

Tự tay huấn luyện model của bạn

Tải trọng số gốc, tinh chỉnh trên máy GPU, rồi đẩy file GGUF về CPU Ollama VPS để chạy inference. Chi phí thấp lúc phục vụ thường ngày, chỉ đầu tư mạnh khi train.

60s

Cấp phát

40 Gbps

Liên kết lên

Chỉ NVMe

Lưu trữ

Các vùng

99.95%

Thời gian hoạt động SLA

14 ngày

Hoàn lại tiền

Mạng toàn cầu

12 khu vực. Bốn châu lục.
Chọn cái bạn cần, kéo model về thôi.

Triển khai máy chủ inference gần người dùng của bạn. Độ trễ trung vị P50 dưới 10 ms tại Bắc Mỹ và châu Âu.

Xem cả 12 region

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Định giá

Chỉ trả tiền cho những gì bạn dùng. Đó là tất cả.

Theo giờ, theo tháng, hoặc theo năm. Không phí băng thông đầu ra. Không ràng buộc. Hiện tại Giảm 50% tất cả các gói.

1 GB DDR5

Mô hình nhỏ gọn CPU · 1B–3B

$3.48/tháng

$6.95/mo−50%

Triển khai ngay

Hoàn tiền trong 14 ngày

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
IPv4 + IPv6 Chuyên Dụng
Cài đặt Ollama chỉ với một cú nhấp

2 GB DDR5

7B / 8B trên CPU

$7.475/tháng

$14.95/mo−50%

Triển khai ngay

Hoàn tiền trong 14 ngày

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
IPv4 + IPv6 Chuyên Dụng
Cài đặt Ollama chỉ với một cú nhấp

Phổ biến nhất

4 GB DDR5

Suy luận cỡ trung CPU

$14.47/tháng

$28.95/mo−50%

Triển khai ngay

Hoàn tiền trong 14 ngày

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
IPv4 + IPv6 Chuyên Dụng
Cài đặt Ollama chỉ với một cú nhấp

Phổ biến nhất

8 GB DDR5

Ngữ cảnh mở rộng · API host

$26.475/tháng

$52.95/mo−50%

Triển khai ngay

Hoàn tiền trong 14 ngày

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
IPv4 + IPv6 Chuyên Dụng
Cài đặt Ollama chỉ với một cú nhấp

Cần thêm? Xem tất cả 10 gói (lên đến 64 GB)

Câu hỏi thường gặp. Ollama VPS

Những câu hỏi thường gặp, câu trả lời thẳng thắn.

Ollama VPS là gì?

Ollama VPS là một máy chủ đám mây Cloudzy được cấu hình sẵn để chạy Ollama, runtime LLM cục bộ. Kéo các mô hình mã nguồn mở như Llama 3, Mistral, Qwen, DeepSeek, hoặc Gemma; phục vụ chúng qua API tương thích OpenAI của riêng bạn; xây dựng ứng dụng chat, agent và công cụ mà không cần gửi dữ liệu đến nhà cung cấp mô hình bên thứ ba.

Ollama có được cài sẵn không?

Ollama có thể cài bằng một cú nhấp từ bảng điều khiển. Chọn template Linux, binary sẽ có mặt trong PATH của bạn, và `ollama pull llama3` hoạt động trong vòng một phút. API HTTP mặc định lắng nghe trên cổng 11434; gắn nó vào IP chuyên dụng của bạn phía sau một reverse proxy.

Tôi có thể chạy LLM trên VPS chỉ có CPU không?

Được, với các mô hình nhỏ hơn. Llama 3 8B và Mistral 7B chạy được trên máy CPU 16 GB, Qwen 0.5B–3B và Gemma 2B chạy thoải mái trên 4 GB. Thông lượng phụ thuộc vào kích thước mô hình và prompt; CPU chậm hơn GPU nhưng hoàn toàn đủ dùng cho API lưu lượng thấp, dự án cá nhân và công việc phát triển.

Bạn có cung cấp gói GPU cho các mô hình lớn hơn không?

Có. Với các mô hình cỡ 70B hoặc inference thông lượng cao, xem các gói GPU của chúng tôi (RTX 4090, RTX 5090, A100). RTX 4090 xử lý được Llama 3 70B với quantization; A100 80GB chạy các mô hình lớn với độ chính xác đầy đủ. Xem chi tiết trên trang giá.

API tương thích OpenAI có được hỗ trợ không?

Có. Ollama cung cấp endpoint `/v1/chat/completions` tương thích hoàn toàn với OpenAI client. Trỏ ứng dụng hiện có của bạn vào `http://your-vps:11434/v1` và đổi tên mô hình là xong. Cùng SDK, không cần viết lại.

Một mô hình chiếm bao nhiêu dung lượng ổ đĩa?

Tùy mô hình. Mô hình 7B quantized 4-bit chiếm khoảng 4 GB. Mô hình 8B khoảng 5 GB. Mô hình 70B ở 4-bit vào khoảng 40 GB. Kéo về bao nhiêu tùy không gian bạn có. Các gói bắt đầu từ 60 GB NVMe và lên đến 1.5 TB; kết hợp nhiều mô hình trên cùng một máy tùy ý.

Tốc độ khởi tạo máy chủ nhanh như thế nào?

Sau khi thanh toán được xác nhận, VPS của bạn hoạt động trong 60 giây. Với Ollama được cài bằng một cú nhấp, runtime sẵn sàng sau thêm một phút nữa. Lần kéo mô hình đầu tiên mất lâu hơn (phụ thuộc tốc độ mạng) nhưng các lần sau được cache trên NVMe.

Tôi có nhận được một IP riêng không?

Có, mỗi VPS đều đi kèm một IPv4 tĩnh chuyên dụng và IPv6. Truy cập API Ollama qua IP chuyên dụng, đặt reverse proxy Caddy phía trước để dùng HTTPS với hostname thực, và mọi thứ đã sẵn sàng. Floating IP cũng có sẵn.

Có phí ẩn không?

Không. Băng thông egress đã bao gồm trong mức chuyển dữ liệu hàng tháng. Snapshot miễn phí. IPv4 + IPv6 đã bao gồm. Quyền truy cập root đã bao gồm. Các tùy chọn trả phí duy nhất là Floating IP (2,50 $/tháng) và snapshot bổ sung vượt mức miễn phí.

Có chính sách hoàn tiền không?

Có, hoàn tiền toàn bộ trong vòng 14 ngày kể từ ngày mua, không cần giải thích lý do. Yêu cầu qua panel hoặc gửi email về [email protected].

Sẵn sàng khi bạn cần.
ollama run, trong 60 giây.

Chọn khu vực, nhấn nút, kéo mô hình về. LLM riêng của bạn, IP chuyên dụng của bạn.

Triển khai một Ollama VPS So sánh tất cả các gói

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào

Chạy mã nguồn mởLLMs trên VPS của bạn.

Một máy chủ LLM yêu thích

Tối ưu cho inference

Dùng thử không rủi ro

99.95% thời gian hoạt động SLA

Hỗ trợ con người 24/7

Mô hình mã nguồn mở.Một cái kéo là xong.

Lý do các developer chọnVPS Ollama của Cloudzy.

Private API cho ứng dụng của bạn

Các agent chạy ngầm

Trợ lý mã hóa

Dự án chat & demo RAG cá nhân

LLM thân thiện với tuân thủ

Tự tay huấn luyện model của bạn

12 khu vực. Bốn châu lục.Chọn cái bạn cần, kéo model về thôi.

Chỉ trả tiền cho những gì bạn dùng. Đó là tất cả.

Những câu hỏi thường gặp, câu trả lời thẳng thắn.

Ollama VPS là gì?

Ollama có được cài sẵn không?

Tôi có thể chạy LLM trên VPS chỉ có CPU không?

Bạn có cung cấp gói GPU cho các mô hình lớn hơn không?

API tương thích OpenAI có được hỗ trợ không?

Một mô hình chiếm bao nhiêu dung lượng ổ đĩa?

Tốc độ khởi tạo máy chủ nhanh như thế nào?

Tôi có nhận được một IP riêng không?

Có phí ẩn không?

Có chính sách hoàn tiền không?

Sẵn sàng khi bạn cần.ollama run, trong 60 giây.

Chạy mã nguồn mở
LLMs trên VPS của bạn.

Mô hình mã nguồn mở.
Một cái kéo là xong.

Lý do các developer chọn
VPS Ollama của Cloudzy.

12 khu vực. Bốn châu lục.
Chọn cái bạn cần, kéo model về thôi.

Sẵn sàng khi bạn cần.
ollama run, trong 60 giây.