Giảm 50% tất cả các gói, thời gian có hạn. Bắt đầu từ $2.48/mo

Ollama VPS Hosting

Chạy mã nguồn mở
LLMs trên VPS của bạn.

Sẵn sàng cho AI trên AMD EPYC thế hệ mới nhất và NVMe thuần túy.
Độc lập từ năm 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, tất cả dưới IP của bạn.

4.6· 735 reviews on Trustpilot

Bắt đầu từ $2.48/mo · Giảm 50% · Không cần thẻ tín dụng

~ ssh root@ollama-lon-001kết nối
root@ollama-lon-001:~# ollama pull llama3
đang tải manifest... đang tải model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "VPS là gì?"
A VPS, hay Máy Chủ Riêng Ảo, là một máy chủ được ảo hóa
môi trường điện toán với hệ điều hành riêng và tài nguyên chuyên dụng
tài nguyên, được lưu trữ trên đám mây...
root@ollama-lon-001:~# _

Cloudzy tóm lược

Cloudzy lưu trữ OllamaVPS VPS sẵn sàng từ 12 vùng trải dài Bắc Mỹ, châu Âu, Trung Đông và châu Á, bắt đầu từ $2.48 per month. Gói dịch vụ từ 512 MB to 64 GB DDR5, tất cả trên Lưu trữ NVMe với 40 Gbps kết nối uplink. Ollama cài đặt chỉ với một cú nhấp; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma và phục vụ chúng phía sau một Tương thích OpenAI APICấp phát máy chủ trong 60 giây. Cloudzy hoạt động độc lập từ năm 2008 và được xếp hạng 4.6 / 5 by 735+ reviewers trên Trustpilot.

Giá bắt đầu
$2.48 / month
Cấp phát
60 giây
Các vùng
12 trên toàn thế giới
Thời gian hoạt động SLA
99.95%
Hoàn lại tiền
14 ngày
Được thành lập
2008

Tại sao developers chọn Cloudzy

Một máy chủ LLM yêu thích

Bốn tiêu chí người dùng thực sự so sánh - chúng tôi làm tốt cả bốn.

Tối ưu cho inference

AMD EPYC, lưu trữ NVMe độc quyền, bộ nhớ DDR5, liên kết tăng tốc 40 Gbps. Trọng số mô hình tải từ NVMe trong vài giây; không có đĩa chậm làm tắc nghẽn phản hồi đầu tiên của bạn.

Dùng thử không rủi ro

Bảo đảm hoàn tiền trong 14 ngày với mọi gói. Không cần giải thích. Không phí cài đặt. Hủy từ dashboard bất cứ lúc nào.

99.95% thời gian hoạt động SLA

Giám sát tự động tại 12 khu vực. Chỉ số SLA 30 ngày gần nhất được công khai tại status.cloudzy.com - không che giấu sau màn PR.

Hỗ trợ con người 24/7

Chat trực tiếp và phản hồi ticket thường dưới 5 phút. Kỹ sư thực sự xử lý, không phải đọc kịch bản. Thời gian giải quyết trung bình dưới 1 giờ.

Chọn cấu hình của bạn

Mô hình mã nguồn mở.
Một cái kéo là xong.

Llama 3 nếu muốn an toàn, Mistral cho chat tổng quát, Qwen cho đa ngôn ngữ, DeepSeek cho code, Gemma cho các tác vụ CPU nhỏ gọn. Tùy ý kết hợp, tất cả trên cùng một NVMe.

Hỗ trợ tải lên GGUF tùy chỉnh trên mọi gói dịch vụ
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0,5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Các mô hình nhỏ của Microsoft

Các trường hợp sử dụng

Lý do các developer chọn
VPS Ollama của Cloudzy.

Private API cho ứng dụng của bạn

Endpoint tương thích OpenAI trên IP riêng của bạn. Xây dựng tính năng chat, tóm tắt nội dung hoặc agent mà không cần gửi dữ liệu người dùng đến bên thứ ba.

Các agent chạy ngầm

Các agent chạy dài để xử lý email hàng loạt, thu thập dữ liệu trang web, hay tự động gắn nhãn ticket không phù hợp với các API tính phí theo lượng dùng. Một VPS phí cố định thì phù hợp. Lên lịch cron, gọi Ollama, nghỉ, lặp lại.

Trợ lý mã hóa

Chạy DeepSeek-Coder hoặc Qwen-Coder làm backend cho plugin Continue / Tabby trong editor của bạn. Tự động hoàn thành nhanh, không tính phí theo từng gợi ý, code không gửi ra ngoài cho bên thứ ba.

Dự án chat & demo RAG cá nhân

Kéo model về, kết nối Open WebUI hoặc LibreChat, rồi chia sẻ link cho bạn bè. Toàn bộ stack chạy trên một VPS với giá chỉ bằng vài ly cà phê mỗi tháng.

LLM thân thiện với tuân thủ

Dữ liệu nhạy cảm (pháp lý, y tế, tài liệu nội bộ) luôn nằm trên VPS của bạn. Kiểm soát truy cập bằng iptables và journald - mô hình của bạn, phạm vi bảo mật của bạn.

Tự tay huấn luyện model của bạn

Tải trọng số gốc, tinh chỉnh trên máy GPU, rồi đẩy file GGUF về CPU Ollama VPS để chạy inference. Chi phí thấp lúc phục vụ thường ngày, chỉ đầu tư mạnh khi train.

60s
Cấp phát
40 Gbps
Liên kết lên
Chỉ NVMe
Lưu trữ
12
Các vùng
99.95%
Thời gian hoạt động SLA
14 ngày
Hoàn lại tiền

Mạng toàn cầu

12 khu vực. Bốn châu lục.
Chọn cái bạn cần, kéo model về thôi.

Triển khai máy chủ inference gần người dùng của bạn. Độ trễ trung vị P50 dưới 10 ms tại Bắc Mỹ và châu Âu.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

Định giá

Chỉ trả tiền cho những gì bạn dùng. Đó là tất cả.

Theo giờ, theo tháng, hoặc theo năm. Không phí băng thông đầu ra. Không ràng buộc. Hiện tại Giảm 50% tất cả các gói.

1 GB DDR5

Mô hình nhỏ gọn CPU · 1B–3B

$3.48/tháng
$6.95/mo−50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • IPv4 + IPv6 Chuyên Dụng
  • Cài đặt Ollama chỉ với một cú nhấp
2 GB DDR5

7B / 8B trên CPU

$7.475/tháng
$14.95/mo−50%
Triển khai ngay
Hoàn tiền trong 14 ngày
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • IPv4 + IPv6 Chuyên Dụng
  • Cài đặt Ollama chỉ với một cú nhấp

Câu hỏi thường gặp. Ollama VPS

Những câu hỏi thường gặp, câu trả lời thẳng thắn.

Ollama VPS là gì?

Ollama VPS là một máy chủ đám mây Cloudzy được cấu hình sẵn để chạy Ollama, runtime LLM cục bộ. Kéo các mô hình mã nguồn mở như Llama 3, Mistral, Qwen, DeepSeek, hoặc Gemma; phục vụ chúng qua API tương thích OpenAI của riêng bạn; xây dựng ứng dụng chat, agent và công cụ mà không cần gửi dữ liệu đến nhà cung cấp mô hình bên thứ ba.

Ollama có được cài sẵn không?

Ollama có thể cài bằng một cú nhấp từ bảng điều khiển. Chọn template Linux, binary sẽ có mặt trong PATH của bạn, và `ollama pull llama3` hoạt động trong vòng một phút. API HTTP mặc định lắng nghe trên cổng 11434; gắn nó vào IP chuyên dụng của bạn phía sau một reverse proxy.

Tôi có thể chạy LLM trên VPS chỉ có CPU không?

Được, với các mô hình nhỏ hơn. Llama 3 8B và Mistral 7B chạy được trên máy CPU 16 GB, Qwen 0.5B–3B và Gemma 2B chạy thoải mái trên 4 GB. Thông lượng phụ thuộc vào kích thước mô hình và prompt; CPU chậm hơn GPU nhưng hoàn toàn đủ dùng cho API lưu lượng thấp, dự án cá nhân và công việc phát triển.

Bạn có cung cấp gói GPU cho các mô hình lớn hơn không?

Có. Với các mô hình cỡ 70B hoặc inference thông lượng cao, xem các gói GPU của chúng tôi (RTX 4090, RTX 5090, A100). RTX 4090 xử lý được Llama 3 70B với quantization; A100 80GB chạy các mô hình lớn với độ chính xác đầy đủ. Xem chi tiết trên trang giá.

API tương thích OpenAI có được hỗ trợ không?

Có. Ollama cung cấp endpoint `/v1/chat/completions` tương thích hoàn toàn với OpenAI client. Trỏ ứng dụng hiện có của bạn vào `http://your-vps:11434/v1` và đổi tên mô hình là xong. Cùng SDK, không cần viết lại.

Một mô hình chiếm bao nhiêu dung lượng ổ đĩa?

Tùy mô hình. Mô hình 7B quantized 4-bit chiếm khoảng 4 GB. Mô hình 8B khoảng 5 GB. Mô hình 70B ở 4-bit vào khoảng 40 GB. Kéo về bao nhiêu tùy không gian bạn có. Các gói bắt đầu từ 60 GB NVMe và lên đến 1.5 TB; kết hợp nhiều mô hình trên cùng một máy tùy ý.

Tốc độ khởi tạo máy chủ nhanh như thế nào?

Sau khi thanh toán được xác nhận, VPS của bạn hoạt động trong 60 giây. Với Ollama được cài bằng một cú nhấp, runtime sẵn sàng sau thêm một phút nữa. Lần kéo mô hình đầu tiên mất lâu hơn (phụ thuộc tốc độ mạng) nhưng các lần sau được cache trên NVMe.

Tôi có nhận được một IP riêng không?

Có, mỗi VPS đều đi kèm một IPv4 tĩnh chuyên dụng và IPv6. Truy cập API Ollama qua IP chuyên dụng, đặt reverse proxy Caddy phía trước để dùng HTTPS với hostname thực, và mọi thứ đã sẵn sàng. Floating IP cũng có sẵn.

Có phí ẩn không?

Không. Băng thông egress đã bao gồm trong mức chuyển dữ liệu hàng tháng. Snapshot miễn phí. IPv4 + IPv6 đã bao gồm. Quyền truy cập root đã bao gồm. Các tùy chọn trả phí duy nhất là Floating IP (2,50 $/tháng) và snapshot bổ sung vượt mức miễn phí.

Có chính sách hoàn tiền không?

Có, hoàn tiền toàn bộ trong vòng 14 ngày kể từ ngày mua, không cần giải thích lý do. Yêu cầu qua panel hoặc gửi email về [email protected].

Sẵn sàng khi bạn cần.
ollama run, trong 60 giây.

Chọn khu vực, nhấn nút, kéo mô hình về. LLM riêng của bạn, IP chuyên dụng của bạn.

Không cần thẻ tín dụng · Hoàn tiền trong 14 ngày · Hủy bất cứ lúc nào