50% off tất cả các gói, thời gian có hạn. Bắt đầu từ $2.48/mo

Ollama VPS Hosting

Chạy mã nguồn mở
LLMs trên VPS của bạn.

Sẵn sàng cho AI trên AMD EPYC thế hệ mới nhất và NVMe thuần túy.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, tất cả dưới IP của bạn.

4.6· 713 reviews on Trustpilot

Starting at $2.48/mo · Giảm 50% · Không cần thẻ tín dụng

~ ssh root@ollama-lon-001connected
root@ollama-lon-001:~# ollama pull llama3
đang tải manifest... đang tải model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, hay Máy Chủ Riêng Ảo, là một máy chủ được ảo hóa
môi trường điện toán với hệ điều hành riêng và tài nguyên chuyên dụng
tài nguyên, được lưu trữ trên đám mây...
root@ollama-lon-001:~# _

Cloudzy tóm lược

Cloudzy hosts OllamaVPS VPS sẵn sàng từ 12 regions trải dài Bắc Mỹ, châu Âu, Trung Đông và châu Á, bắt đầu từ $2.48 per month. Gói dịch vụ từ 512 MB to 64 GB DDR5, all on NVMe storage with 40 Gbps kết nối uplink. Ollama cài đặt chỉ với một cú nhấp; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma và phục vụ chúng phía sau một Tương thích OpenAI API. Servers provision in 60 seconds. Cloudzy hoạt động độc lập từ năm 2008 and is rated 4.6 / 5 by 713+ reviewers on Trustpilot.

Starting price
$2.48 / month
Provisioning
60 seconds
Regions
12 worldwide
Uptime SLA
99.95%
Money-back
14 days
Founded
2008

Tại sao developers chọn Cloudzy

An LLM host favorite.

Bốn tiêu chí người dùng thực sự so sánh - chúng tôi làm tốt cả bốn.

Tối ưu cho inference

AMD EPYC, NVMe-only storage, DDR5 memory, 40 Gbps uplinks. Model weights load from NVMe in seconds; no slow disk choking your first response.

Dùng thử không rủi ro

Bảo đảm hoàn tiền trong 14 ngày với mọi gói. Không cần giải thích. Không phí cài đặt. Hủy từ dashboard bất cứ lúc nào.

99.95% uptime SLA

Giám sát tự động tại 12 khu vực. Chỉ số SLA 30 ngày gần nhất được công khai tại status.cloudzy.com - không che giấu sau màn PR.

24/7 human support

Chat trực tiếp và phản hồi ticket thường dưới 5 phút. Kỹ sư thực sự xử lý, không phải đọc kịch bản. Thời gian giải quyết trung bình dưới 1 giờ.

Chọn cấu hình của bạn

Mô hình mã nguồn mở.
Một cái kéo là xong.

Llama 3 nếu muốn an toàn, Mistral cho chat tổng quát, Qwen cho đa ngôn ngữ, DeepSeek cho code, Gemma cho các tác vụ CPU nhỏ gọn. Tùy ý kết hợp, tất cả trên cùng một NVMe.

Hỗ trợ tải lên GGUF tùy chỉnh trên mọi gói dịch vụ
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Các mô hình nhỏ của Microsoft

Use cases

Lý do các developer chọn
Cloudzy's Ollama VPS.

Private API cho ứng dụng của bạn

Endpoint tương thích OpenAI trên IP riêng của bạn. Xây dựng tính năng chat, tóm tắt nội dung hoặc agent mà không cần gửi dữ liệu người dùng đến bên thứ ba.

Background agents

Các agent chạy dài để xử lý email hàng loạt, thu thập dữ liệu trang web, hay tự động gắn nhãn ticket không phù hợp với các API tính phí theo lượng dùng. Một VPS phí cố định thì phù hợp. Lên lịch cron, gọi Ollama, nghỉ, lặp lại.

Code assistants

Chạy DeepSeek-Coder hoặc Qwen-Coder làm backend cho plugin Continue / Tabby trong editor của bạn. Tự động hoàn thành nhanh, không tính phí theo từng gợi ý, code không gửi ra ngoài cho bên thứ ba.

Dự án chat & demo RAG cá nhân

Kéo model về, kết nối Open WebUI hoặc LibreChat, rồi chia sẻ link cho bạn bè. Toàn bộ stack chạy trên một VPS với giá chỉ bằng vài ly cà phê mỗi tháng.

LLM thân thiện với tuân thủ

Dữ liệu nhạy cảm (pháp lý, y tế, tài liệu nội bộ) luôn nằm trên VPS của bạn. Kiểm soát truy cập bằng iptables và journald - mô hình của bạn, phạm vi bảo mật của bạn.

Tự tay huấn luyện model của bạn

Tải trọng số gốc, tinh chỉnh trên máy GPU, rồi đẩy file GGUF về CPU Ollama VPS để chạy inference. Chi phí thấp lúc phục vụ thường ngày, chỉ đầu tư mạnh khi train.

60s
Provisioning
40 Gbps
Uplink
NVMe-only
Storage
12
Regions
99.95%
Uptime SLA
14 days
Money-back

Global network

12 khu vực. Bốn châu lục.
Chọn cái bạn cần, kéo model về thôi.

Triển khai máy chủ inference gần người dùng của bạn. Độ trễ trung vị P50 dưới 10 ms tại Bắc Mỹ và châu Âu.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Pricing

Chỉ trả tiền cho những gì bạn dùng. That's it.

Theo giờ, theo tháng, hoặc theo năm. Không phí băng thông đầu ra. Không ràng buộc. Hiện tại 50% off all plans.

1 GB DDR5

Mô hình nhỏ gọn CPU · 1B–3B

$3.48/mo
$6.95/mo−50%
Deploy now
Hoàn tiền trong 14 ngày
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Cài đặt Ollama chỉ với một cú nhấp
2 GB DDR5

7B / 8B on CPU

$7.475/mo
$14.95/mo−50%
Deploy now
Hoàn tiền trong 14 ngày
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • Dedicated IPv4 + IPv6
  • Cài đặt Ollama chỉ với một cú nhấp

Câu hỏi thường gặp. Ollama VPS

Common questions, straight answers.

Ollama VPS là gì?

Ollama VPS là một máy chủ đám mây Cloudzy được cấu hình sẵn để chạy Ollama, runtime LLM cục bộ. Kéo các mô hình mã nguồn mở như Llama 3, Mistral, Qwen, DeepSeek, hoặc Gemma; phục vụ chúng qua API tương thích OpenAI của riêng bạn; xây dựng ứng dụng chat, agent và công cụ mà không cần gửi dữ liệu đến nhà cung cấp mô hình bên thứ ba.

Ollama có được cài sẵn không?

Ollama có thể cài bằng một cú nhấp từ bảng điều khiển. Chọn template Linux, binary sẽ có mặt trong PATH của bạn, và `ollama pull llama3` hoạt động trong vòng một phút. API HTTP mặc định lắng nghe trên cổng 11434; gắn nó vào IP chuyên dụng của bạn phía sau một reverse proxy.

Tôi có thể chạy LLM trên VPS chỉ có CPU không?

Được, với các mô hình nhỏ hơn. Llama 3 8B và Mistral 7B chạy được trên máy CPU 16 GB, Qwen 0.5B–3B và Gemma 2B chạy thoải mái trên 4 GB. Thông lượng phụ thuộc vào kích thước mô hình và prompt; CPU chậm hơn GPU nhưng hoàn toàn đủ dùng cho API lưu lượng thấp, dự án cá nhân và công việc phát triển.

Bạn có cung cấp gói GPU cho các mô hình lớn hơn không?

Có. Với các mô hình cỡ 70B hoặc inference thông lượng cao, xem các gói GPU của chúng tôi (RTX 4090, RTX 5090, A100). RTX 4090 xử lý được Llama 3 70B với quantization; A100 80GB chạy các mô hình lớn với độ chính xác đầy đủ. Xem chi tiết trên trang giá.

API tương thích OpenAI có được hỗ trợ không?

Có. Ollama cung cấp endpoint `/v1/chat/completions` tương thích hoàn toàn với OpenAI client. Trỏ ứng dụng hiện có của bạn vào `http://your-vps:11434/v1` và đổi tên mô hình là xong. Cùng SDK, không cần viết lại.

Một mô hình chiếm bao nhiêu dung lượng ổ đĩa?

Tùy mô hình. Mô hình 7B quantized 4-bit chiếm khoảng 4 GB. Mô hình 8B khoảng 5 GB. Mô hình 70B ở 4-bit vào khoảng 40 GB. Kéo về bao nhiêu tùy không gian bạn có. Các gói bắt đầu từ 60 GB NVMe và lên đến 1.5 TB; kết hợp nhiều mô hình trên cùng một máy tùy ý.

Tốc độ khởi tạo máy chủ nhanh như thế nào?

Sau khi thanh toán được xác nhận, VPS của bạn hoạt động trong 60 giây. Với Ollama được cài bằng một cú nhấp, runtime sẵn sàng sau thêm một phút nữa. Lần kéo mô hình đầu tiên mất lâu hơn (phụ thuộc tốc độ mạng) nhưng các lần sau được cache trên NVMe.

Do I get a dedicated IP?

Có, mỗi VPS đều đi kèm một IPv4 tĩnh chuyên dụng và IPv6. Truy cập API Ollama qua IP chuyên dụng, đặt reverse proxy Caddy phía trước để dùng HTTPS với hostname thực, và mọi thứ đã sẵn sàng. Floating IP cũng có sẵn.

Có phí ẩn không?

Không. Băng thông egress đã bao gồm trong mức chuyển dữ liệu hàng tháng. Snapshot miễn phí. IPv4 + IPv6 đã bao gồm. Quyền truy cập root đã bao gồm. Các tùy chọn trả phí duy nhất là Floating IP (2,50 $/tháng) và snapshot bổ sung vượt mức miễn phí.

Có chính sách hoàn tiền không?

Có, hoàn tiền toàn bộ trong vòng 14 ngày kể từ ngày mua, không cần giải thích lý do. Yêu cầu qua panel hoặc gửi email về [email protected].

Sẵn sàng khi bạn cần.
ollama run, trong 60 giây.

Chọn khu vực, nhấn nút, kéo mô hình về. LLM riêng của bạn, IP chuyên dụng của bạn.

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào