50% 할인 모든 플랜, 기간 한정. 시작 가격 $2.48/mo

Ollama VPS 호스팅

오픈소스
LLM를 VPS에서 실행하세요.

최신 AMD EPYC와 순수 NVMe 기반의 Ollama 전용 VPS.
Independent since 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, 모두 내 IP 아래에서.

4.6· Trustpilot 리뷰 713건

시작 가격 $2.48/mo · 50% 할인 · 신용카드 불필요

~ ssh root@ollama-lon-001연결됨
root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
VPS, 즉 가상 사설 서버(Virtual Private Server)는 자체 OS와 전용
리소스를 갖춘 가상화 컴퓨팅 환경으로,
클라우드에서 호스팅됩니다...
root@ollama-lon-001:~# _

Ollama VPS 한눈에 보기

Cloudzy 호스트 Ollama-ready VPS, 시작 가격 12개 리전 북미, 유럽, 중동, 아시아 12개 리전, 시작 가격 $2.48 per month. 플랜 범위는 512 MB to 64 GB DDR5, all on NVMe 스토리지 포함 40 Gbps 업링크. Ollama는 원클릭으로 설치되며, 모델을 pull하고 Llama 3, Mistral, Qwen, DeepSeek, Gemma 뒤에서 서빙할 수 있습니다 OpenAI 호환 API로. Servers provision in 60초. Cloudzy has operated independently since 2008 부터 독립적으로 운영되어 왔으며, 평점은 4.6 / 5 by 713명 이상의 리뷰어 on Trustpilot.

시작 가격
$2.48 / month
프로비저닝
60초
지역
전 세계 12개 지역
업타임 SLA
99.95%
환불 보장
14일
설립
2008

개발자들이 Cloudzy를 선택하는 이유

An LLM host 개발자들의 선택.

구매자들이 실제로 비교하는 네 가지 항목, 모두 제대로 갖췄습니다.

추론에 최적화

AMD EPYC, NVMe 전용 스토리지, DDR5 메모리, 40 Gbps 업링크. 모델 가중치는 NVMe에서 수초 내에 로드됩니다. 느린 디스크가 첫 번째 응답을 지연시키지 않습니다.

부담 없는 무료 체험

모든 플랜에 14일 환불 보장이 적용됩니다. 이유를 묻지 않습니다. 설정 비용도 없습니다. 대시보드에서 언제든지 해지할 수 있습니다.

99.95% 가동률 SLA

12개 리전에 걸친 자동화된 모니터링. 최근 30일간의 SLA 지표는 status.cloudzy.com에서 누구나 확인할 수 있습니다. 포장 없이 그대로 공개합니다.

24/7 실제 전문가 지원

라이브 채팅과 티켓 답변은 평균 5분 이내. 스크립트를 읽는 상담원이 아닌 엔지니어가 직접 응대합니다. 중간 해결 시간 1시간 이내.

모델 선택

오픈 웨이트 모델.
pull 한 번이면 끝.

안전한 선택엔 Llama 3, 범용 대화엔 Mistral, 다국어 지원엔 Qwen, 코드 작업엔 DeepSeek, 경량 CPU 작업엔 Gemma. 조합은 자유롭게, 모두 동일한 NVMe에서.

모든 플랜에서 커스텀 GGUF 업로드 지원
Llama 3
8B / 70B / 405B
Mistral
7B / Mixtral 8x7B
Qwen
0.5B – 72B Alibaba
DeepSeek
Coder / Chat / R1
Gemma
2B / 7B Google
Phi
Microsoft 소형 모델

활용 사례

개발자들이 선택하는 이유
Cloudzy의 Ollama VPS.

앱을 위한 전용 API

전용 IP에 OpenAI 호환 엔드포인트를 바로 연결하세요. 사용자 프롬프트를 외부 업체에 전송하지 않고도 채팅 기능, 요약기, 에이전트를 직접 구축할 수 있습니다.

Background agents

이메일 일괄 처리, 사이트 크롤링, 티켓 자동 태깅처럼 오래 실행되는 에이전트는 사용량 기반 요금의 API에 맞지 않습니다. 고정 요금 VPS가 딱 맞습니다. Cron 작업을 등록하고, Ollama를 호출하고, 대기하고, 반복하면 됩니다.

Code assistants

에디터의 Continue / Tabby 플러그인 백엔드로 DeepSeek-Coder 또는 Qwen-Coder를 실행하세요. 빠른 자동완성, 제안당 비용 없음, 코드가 외부 벤더에 전송되지 않습니다.

취미용 챗봇 및 RAG 데모

모델을 내려받고 Open WebUI나 LibreChat을 연결한 뒤, 링크를 친구들과 공유하세요. 전체 스택을 VPS 하나에서, 한 달에 커피 몇 잔 값으로 운영할 수 있습니다.

컴플라이언스 친화적 LLM

민감한 데이터(법률, 의료, 내부 문서)는 VPS 안에만 머뭅니다. iptables와 journald로 접근을 감사하세요. 모델도, 경계도 직접 관리합니다.

직접 파인튜닝하기

기본 가중치를 내려받아 GPU 서버에서 파인튜닝한 뒤, GGUF를 CPU Ollama VPS로 옮겨 추론에 사용하세요. 평소에는 저렴하게 서빙하고, 훈련할 때만 비용을 씁니다.

60s
프로비저닝
40 Gbps
업링크
NVMe 전용
스토리지
12
지역
99.95%
업타임 SLA
14일
환불 보장

글로벌 네트워크

12개 리전. 4개 대륙.
원하는 서버를 고르고, 모델을 내려받으세요.

사용자 가까이에 추론 서버를 배치하세요. 북미와 유럽에서 P50 지연 시간 중앙값 10 ms 미만.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

요금제

사용한 만큼만 지불하세요. 그게 전부입니다.

시간별, 월별, 또는 연별 청구. 이그레스 요금 없음. 약정 없음. 현재 50% 할인 전체 플랜.

1 GB DDR5

소형 CPU 모델 · 1B–3B

$3.48/월
$6.95/mo−50%
지금 배포하기
14일 환불 보장
  • 1 vCPU @ EPYC
  • 25 GB NVMe
  • 1 TB · 40 Gbps
  • 전용 IPv4 + IPv6
  • 원클릭 Ollama
2 GB DDR5

7B / 8B on CPU

$7.475/월
$14.95/mo−50%
지금 배포하기
14일 환불 보장
  • 1 vCPU @ EPYC
  • 60 GB NVMe
  • 3 TB · 40 Gbps
  • 전용 IPv4 + IPv6
  • 원클릭 Ollama

FAQ. Ollama VPS

자주 묻는 질문, 명확한 답변.

Ollama VPS란 무엇인가요?

Ollama VPS는 로컬 LLM 런타임인 Ollama를 실행하도록 구성된 Cloudzy 클라우드 서버입니다. Llama 3, Mistral, Qwen, DeepSeek, Gemma 같은 오픈소스 모델을 내려받아 OpenAI 호환 API 뒤에서 서빙하고, 서드파티 모델 제공자에게 트래픽을 보내지 않고도 챗 앱, 에이전트, 도구를 직접 만들 수 있습니다.

Ollama가 미리 설치되어 있나요?

Ollama는 패널에서 원클릭으로 설치할 수 있습니다. Linux 템플릿을 선택하면 바이너리가 PATH에 등록되고, 1분 이내에 `ollama pull llama3`를 실행할 수 있습니다. HTTP API는 기본적으로 포트 11434에서 수신 대기하며, 전용 IP에 리버스 프록시를 통해 바인딩할 수 있습니다.

CPU 전용 VPS에서 LLM를 실행할 수 있나요?

소형 모델은 가능합니다. Llama 3 8B와 Mistral 7B는 16 GB CPU 서버에서 실행되고, Qwen 0.5B–3B와 Gemma 2B는 4 GB에서도 원활하게 동작합니다. 처리량은 모델 크기와 프롬프트에 따라 다르며, CPU는 GPU보다 느리지만 트래픽이 많지 않은 API, 사이드 프로젝트, 개발 작업에는 충분합니다.

대형 모델을 위한 GPU 플랜도 있나요?

있습니다. 70B급 모델이나 고처리량 추론에는 GPU 플랜(RTX 4090, RTX 5090, A100)을 확인하세요. 4090은 양자화를 적용해 Llama 3 70B를 처리하고, A100 80GB는 풀 프리시전 대형 모델도 실행합니다. 요금 페이지에서 링크를 확인할 수 있습니다.

OpenAI 호환 API를 지원하나요?

지원합니다. Ollama는 OpenAI 클라이언트와 완전히 호환되는 `/v1/chat/completions` 엔드포인트를 제공합니다. 기존 앱의 엔드포인트를 `http://your-vps:11434/v1`으로 바꾸고 모델 이름만 변경하면 됩니다. 같은 SDK를 그대로 사용할 수 있어 코드를 다시 작성할 필요가 없습니다.

모델 하나에 디스크 용량이 얼마나 필요한가요?

모델마다 다릅니다. 4비트 양자화 7B 모델은 약 4 GB, 8B는 약 5 GB, 70B를 4비트로 양자화하면 약 40 GB입니다. 용량이 허락하는 만큼 모델을 받아두세요. 플랜은 60 GB NVMe부터 1.5 TB까지 제공되며, 하나의 서버에 여러 모델을 자유롭게 조합할 수 있습니다.

프로비저닝 속도는 얼마나 빠른가요?

결제가 확인되면 VPS가 60초 안에 시작됩니다. Ollama를 원클릭으로 설치하면 런타임도 1분 내에 준비됩니다. 첫 번째 모델 다운로드는 네트워크 속도에 따라 시간이 걸릴 수 있지만, 이후 모델은 NVMe에 캐시되어 빠르게 로드됩니다.

Do I get a dedicated IP?

네, 모든 VPS에는 전용 고정 IPv4와 IPv6가 기본 제공됩니다. 전용 IP로 Ollama API에 접근하고, 실제 호스트명에서 HTTPS를 사용하려면 앞단에 Caddy 리버스 프록시를 붙이면 끝입니다. 유동 IP도 사용할 수 있습니다.

숨겨진 요금이 있나요?

아니요. 아웃바운드 트래픽은 월간 전송량에 포함됩니다. 스냅샷은 무료입니다. IPv4와 IPv6도 포함됩니다. root 접근 권한도 기본 제공됩니다. 유료 옵션은 Floating IP(월 $2.50)와 무료 할당량 초과 시의 추가 스냅샷뿐입니다.

환불 보장이 있나요?

네, 구매일로부터 14일 이내에 이유 불문 전액 환불이 가능합니다. 패널에서 신청하거나 [email protected]으로 문의하세요.

준비되셨나요?
ollama run, 60초면 됩니다.

리전을 선택하고, 클릭하고, 모델을 받으세요. 나만의 프라이빗 LLM, 전용 IP.

신용카드 불필요 · 14일 환불 보장 · 언제든지 취소 가능