LLM 추론 API
OpenAI 호환 엔드포인트로 7B~70B급 양자화 LLM를 직접 서빙하세요. GPU에서 vLLM 또는 TGI를, 대용량 CPU에서 llama.cpp / Ollama를 운용할 수 있습니다. 고객에게 토큰 단위로 청구하세요.
국가를 선택하면 Cloudzy를 해당 언어로 확인할 수 있습니다.
AI VPS 호스팅
추론 / RAG를 위한 고성능 CPU, 또는 학습을 위한 NVIDIA급 GPU, 동일한 VPS 패널로 관리하세요.
독립 클라우드, 2008년부터. 월 $2.48부터 · root SSH, 60초 안에.
CPU, 시작 가격 $2.48/mo · GPU 플랜 제공 중 가격 정책 · 14일 환불 보장
AI VPS 한눈에 보기
Cloudzy AI VPS 호스팅을 두 가지 형태로 제공합니다. 양자화된 LLM 추론, RAG, 파이프라인을 위한 고성능 CPU 플랜과 NVIDIA급 대규모 모델 학습 및 서빙을 위한 GPU 플랜입니다. 플랜은 AMD EPYC, NVMe 스토리지, 그리고 40 Gbps 업링크 제공, 전 세계 12개 리전. CPU 시작 가격은 $2.48 per month; 프로비저닝 소요 시간은 60초; CUDA 이미지는 GPU 플랜에 사전 설치되어 있습니다. Cloudzy는 2008년부터 독립적으로 운영되어 왔으며, 122,000명 이상의 개발자, 평점은 4.6 / 5 by 728+ reviewers Trustpilot에서.
AI 개발자들이 Cloudzy를 선택하는 이유
이 곳에서 AI 워크로드를 실행해야 하는 네 가지 이유.
최신 EPYC로 CPU 추론을, NVMe로 빠른 모델 로드를 지원합니다. GPU 플랜에서는 PCI passthrough를 통해 전용 GPU를 사용할 수 있습니다.
Cloudzy에서 실제 추론 레이턴시를 직접 테스트해보세요. SLO를 충족하지 못하면 14일 이내에 환불해 드립니다.
프로덕션 AI API에는 트래픽이 몰리는 시간에 재부팅되지 않는 호스트가 필요합니다. 최근 30일 SLA는 status.cloudzy.com에서 공개적으로 확인할 수 있습니다.
CUDA 버전, NCCL 오류, vLLM 튜닝 문제로 막혔나요? AI 워크로드 경험이 있는 엔지니어가 몇 시간이 아닌 몇 분 안에 응답합니다.
AI 스택
PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang 모두 정상적으로 동작합니다. GPU 플랜의 사전 구성된 CUDA 이미지를 사용하면 드라이버 설정 과정을 건너뛸 수 있습니다. CPU 플랜은 양자화 추론과 임베딩 워커를 저렴하게 처리합니다.
활용 사례
OpenAI 호환 엔드포인트로 7B~70B급 양자화 LLM를 직접 서빙하세요. GPU에서 vLLM 또는 TGI를, 대용량 CPU에서 llama.cpp / Ollama를 운용할 수 있습니다. 고객에게 토큰 단위로 청구하세요.
CPU VPS에서 Postgres + pgvector 또는 Qdrant를 운용하고, 임베딩·생성용 GPU 서버를 선택적으로 추가하세요. NVMe 덕분에 벡터 조회 속도가 빠르게 유지됩니다.
OpenAI/Anthropic API와 자체 데이터를 활용하는 장기 실행 LangChain 또는 LlamaIndex 에이전트. 정적 IP로 툴 호출이 안정적으로 유지됩니다.
RTX급 GPU에서 Stable Diffusion, SDXL, ComfyUI, 영상 모델을 실행하세요. NVMe로 모델 교체를 수 분이 아닌 수 초 만에 처리할 수 있습니다.
RTX급 서버에서 LoRA / QLoRA 파인튜닝을, 데이터센터급 GPU에서 전체 파라미터 학습을 진행하세요. CUDA, NCCL, PyTorch가 사전 구성되어 있습니다.
16~32 GB CPU VPS에서 sentence-transformers 워커를 실행해 수백만 건의 문서를 임베딩하세요. API 호출당 요금 없이 처리할 수 있습니다.
글로벌 네트워크
AI API를 고객 가까이 배치하세요. 한 리전에는 CPU 게이트웨이를, 다른 리전에는 GPU 서버를 함께 운용하세요.
CPU AI 플랜
AI 워크로드 중 상당수는 CPU만으로도 처리됩니다. 시간 단위 청구 · 전 플랜 50% 할인 · GPU 플랜은 별도 페이지에서 확인하세요 /pricing.
Quantized 7B 추론 · CPU
RAG 백엔드 · 벡터 DB · 임베딩
중간 규모 CPU 추론 · API 게이트웨이
대규모 RAM CPU · 에이전트 · 파이프라인
자주 묻는 질문. AI VPS
워크로드에 맞는 사양을 선택하세요. 추론 / RAG에는 CPU, 트레이닝에는 GPU. 동일한 패널에서 관리합니다.
신용카드 불필요 · 14일 환불 보장 · 언제든지 취소 가능