본문으로 건너뛰기
50% 할인 모든 플랜, 기간 한정. 시작 가격 $2.48/mo

Ollama VPS 호스팅

오픈소스
LLM를 VPS에서 실행하세요.

최신 AMD EPYC와 순수 NVMe 기반의 Ollama 전용 VPS.
2008년부터 독립적입니다. Llama, Mistral, Qwen, DeepSeek, Gemma, 모두 내 IP 아래에서.

4.7 · 755 reviews on Trustpilot

시작 가격 $2.48/mo · 50% 할인 · 신용카드 불필요

~ ssh root@ollama-lon-001 연결됨
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS 한눈에 보기

Cloudzy 호스트 Ollama-ready VPS, 시작 가격 13개 리전 북미, 유럽, 중동, 아시아 전역, 시작 가격 $2.48 per month. 플랜 범위는 512 MB to 64 GB DDR5, 모두 NVMe 스토리지 포함 40 Gbps 업링크 Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma 뒤에서 서빙할 수 있습니다 OpenAI 호환 API로서버 프로비저닝 시간: 60초. Cloudzy has operated independently since 2008 그리고 평가는 4.7 / 5 by 755+ reviewers Trustpilot에서.

시작 가격
$2.48 / month
프로비저닝
60초
지역
전 세계 13개
가동시간 SLA
99.95%
환불 보장
14일
설립
2008

개발자들이 Cloudzy를 선택하는 이유

LLM 호스트 개발자들의 선택.

구매자가 실제로 비교하는 네 가지를 제대로 해냅니다.

추론에 최적화

AMD EPYC, NVMe 전용 스토리지, DDR5 메모리, 40 Gbps 업링크. 모델 가중치는 NVMe에서 수초 내에 로드됩니다. 느린 디스크가 첫 번째 응답을 지연시키지 않습니다.

위험 부담 없는 체험

모든 플랜에 14일 환불 보장이 적용됩니다. 별도 문의 없이 진행됩니다. 설치비도 없습니다. 언제든지 대시보드에서 취소하실 수 있습니다.

99.95% 가동시간 SLA

13개 리전에서 자동 모니터링이 진행됩니다. 최근 30일 SLA는 status.cloudzy.com에서 공개적으로 추적되며, PR 뒤에 숨기지 않습니다.

24/7 사람이 응대하는 지원

라이브 채팅과 티켓 응답 일반적으로 5분 이내. 스크립트를 읽는 사람이 아닌 엔지니어. 중앙값 해결 시간 1시간 이내.

모델 선택

오픈 웨이트 모델.
pull 한 번이면 끝.

안전한 선택엔 Llama 3, 범용 대화엔 Mistral, 다국어 지원엔 Qwen, 코드 작업엔 DeepSeek, 경량 CPU 작업엔 Gemma. 조합은 자유롭게, 모두 동일한 NVMe에서.

모든 플랜에서 커스텀 GGUF 업로드 지원
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B 알리바바
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Microsoft 소형 모델

사용 사례

개발자들이 선택하는 이유
Cloudzy의 Ollama VPS.

앱을 위한 전용 API

전용 IP에 OpenAI 호환 엔드포인트를 바로 연결하세요. 사용자 프롬프트를 외부 업체에 전송하지 않고도 채팅 기능, 요약기, 에이전트를 직접 구축할 수 있습니다.

백그라운드 에이전트

이메일 일괄 처리, 사이트 크롤링, 티켓 자동 태깅처럼 오래 실행되는 에이전트는 사용량 기반 요금의 API에 맞지 않습니다. 고정 요금 VPS가 딱 맞습니다. Cron 작업을 등록하고, Ollama를 호출하고, 대기하고, 반복하면 됩니다.

코드 어시스턴트

에디터의 Continue / Tabby 플러그인 백엔드로 DeepSeek-Coder 또는 Qwen-Coder를 실행하세요. 빠른 자동완성, 제안당 비용 없음, 코드가 외부 벤더에 전송되지 않습니다.

취미용 챗봇 및 RAG 데모

모델을 내려받고 Open WebUI나 LibreChat을 연결한 뒤, 링크를 친구들과 공유하세요. 전체 스택을 VPS 하나에서, 한 달에 커피 몇 잔 값으로 운영할 수 있습니다.

컴플라이언스 친화적 LLM

민감한 데이터(법률, 의료, 내부 문서)는 VPS 안에만 머뭅니다. iptables와 journald로 접근을 감사하세요. 모델도, 경계도 직접 관리합니다.

직접 파인튜닝하기

기본 가중치를 내려받아 GPU 서버에서 파인튜닝한 뒤, GGUF를 CPU Ollama VPS로 옮겨 추론에 사용하세요. 평소에는 저렴하게 서빙하고, 훈련할 때만 비용을 씁니다.

60s
프로비저닝
40 Gbps
업링크
NVMe 전용
스토리지
13
지역
99.95%
가동시간 SLA
14 days
환불 보장

글로벌 네트워크

13개 리전. 4개 대륙.
원하는 서버를 고르고, 모델을 내려받으세요.

사용자 가까이에 추론 서버를 배치하세요. 북미와 유럽에서 P50 지연 시간 중앙값 10 ms 미만.

us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1

요금제

사용한 만큼만 지불. 그게 전부입니다.

시간, 월, 또는 연 단위. 송신 요금 없음. 약정 없음. 현재 50% 할인 모든 플랜.

1 GB DDR5

소형 CPU 모델 · 1B–3B

$3.48 /mo
$6.95/mo −50%
지금 배포
14일 환불 보장
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • 전용 IPv4 + IPv6
  • 원클릭 Ollama
2 GB DDR5

7B / 8B on CPU

$7.475 /mo
$14.95/mo −50%
지금 배포
14일 환불 보장
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • 전용 IPv4 + IPv6
  • 원클릭 Ollama

FAQ. Ollama VPS

자주 묻는 질문, 명확한 답변.

Ollama VPS란 무엇인가요?

Ollama VPS는 로컬 LLM 런타임인 Ollama를 실행하도록 구성된 Cloudzy 클라우드 서버입니다. Llama 3, Mistral, Qwen, DeepSeek, Gemma 같은 오픈소스 모델을 내려받아 OpenAI 호환 API 뒤에서 서빙하고, 서드파티 모델 제공자에게 트래픽을 보내지 않고도 챗 앱, 에이전트, 도구를 직접 만들 수 있습니다.

Ollama가 미리 설치되어 있나요?

Ollama는 패널에서 원클릭으로 설치할 수 있습니다. Linux 템플릿을 선택하면 바이너리가 PATH에 등록되고, 1분 이내에 `ollama pull llama3`를 실행할 수 있습니다. HTTP API는 기본적으로 포트 11434에서 수신 대기하며, 전용 IP에 리버스 프록시를 통해 바인딩할 수 있습니다.

CPU 전용 VPS에서 LLM를 실행할 수 있나요?

소형 모델은 가능합니다. Llama 3 8B와 Mistral 7B는 16 GB CPU 서버에서 실행되고, Qwen 0.5B–3B와 Gemma 2B는 4 GB에서도 원활하게 동작합니다. 처리량은 모델 크기와 프롬프트에 따라 다르며, CPU는 GPU보다 느리지만 트래픽이 많지 않은 API, 사이드 프로젝트, 개발 작업에는 충분합니다.

대형 모델을 위한 GPU 플랜도 있나요?

있습니다. 70B급 모델이나 고처리량 추론에는 GPU 플랜(RTX 4090, RTX 5090, A100)을 확인하세요. 4090은 양자화를 적용해 Llama 3 70B를 처리하고, A100 80GB는 풀 프리시전 대형 모델도 실행합니다. 요금 페이지에서 링크를 확인할 수 있습니다.

OpenAI 호환 API를 지원하나요?

지원합니다. Ollama는 OpenAI 클라이언트와 완전히 호환되는 `/v1/chat/completions` 엔드포인트를 제공합니다. 기존 앱의 엔드포인트를 `http://your-vps:11434/v1`으로 바꾸고 모델 이름만 변경하면 됩니다. 같은 SDK를 그대로 사용할 수 있어 코드를 다시 작성할 필요가 없습니다.

모델 하나에 디스크 용량이 얼마나 필요한가요?

모델마다 다릅니다. 4비트 양자화 7B 모델은 약 4 GB, 8B는 약 5 GB, 70B를 4비트로 양자화하면 약 40 GB입니다. 용량이 허락하는 만큼 모델을 받아두세요. 플랜은 60 GB NVMe부터 1.5 TB까지 제공되며, 하나의 서버에 여러 모델을 자유롭게 조합할 수 있습니다.

프로비저닝은 얼마나 빠른가요?

결제가 확인되면 VPS가 60초 안에 시작됩니다. Ollama를 원클릭으로 설치하면 런타임도 1분 내에 준비됩니다. 첫 번째 모델 다운로드는 네트워크 속도에 따라 시간이 걸릴 수 있지만, 이후 모델은 NVMe에 캐시되어 빠르게 로드됩니다.

전용 IP를 받나요?

네, 모든 VPS에는 전용 고정 IPv4와 IPv6가 기본 제공됩니다. 전용 IP로 Ollama API에 접근하고, 실제 호스트명에서 HTTPS를 사용하려면 앞단에 Caddy 리버스 프록시를 붙이면 끝입니다. 유동 IP도 사용할 수 있습니다.

숨겨진 요금이 있나요?

아니요. 송신은 월 전송 할당량에 포함됩니다. 스냅샷 무료. IPv4 + IPv6 포함. Root 접근 포함. 유료 추가 항목은 Floating IP (월 $2.50)와 무료 할당량 초과 스냅샷뿐입니다.

환불 보장이 있나요?

예, 구매 후 14일 이내, 묻지 않고 전액 환불. 패널에서 신청하거나 [email protected]으로 이메일을 보내세요.

언제든 준비되어 있습니다.
ollama run, 60초 안에.

리전을 선택하고, 클릭하고, 모델을 받으세요. 나만의 프라이빗 LLM, 전용 IP.

신용카드 불필요 · 14일 환불 보장 · 언제든 취소 가능