50% 할인 모든 플랜, 기간 한정. 시작 가격 $2.48/mo

AI VPS 호스팅

AI 워크로드,
당신의 모양을 선택하십시오.

추론/RAG용 대용량 RAM CPU 또는 교육용 NVIDIA급 GPU, 동일한 VPS 패널.
2008년부터 독립 클라우드. 월 $2.48부터 · 60초 만에 root SSH.

4.6 · 706 reviews on Trustpilot

CPU의 $2.48/mo · GPU 계획 가격 · 14일 환불

~ SSH 루트@ai-nyc-001 연결됨
루트@ai-nyc-001:~# 컬 -fsSL https://ollama.com/install.sh | 쉿
Ollama 런타임 설치 중... 완료
루트@ai-nyc-001:~# ollama는 llama3.1:8b-instruct-q4를 실행합니다.
매니페스트 가져오기 · NVMe에 4.7GB 다운로드
모델 준비 · CPU 추론 시작
루트@ai-nyc-001:~# 컬 로컬호스트:11434/api/generate -d '...'
{"응답":"안녕하세요! 오늘은 무엇을 도와드릴까요?"}
루트@ai-nyc-001:~# _

AI VPS 개요

Cloudzy 대용량 RAM의 두 가지 형태로 AI VPS 호스팅을 제공합니다. CPU는 양자화된 LLM 추론, RAG 및 파이프라인을 계획하고 있으며, NVIDIA급 훈련 및 대규모 모델 제공을 위한 GPU 계획입니다. 계획은 다음과 같이 실행됩니다. AMD EPYC, NVMe 스토리지, 그리고 40 Gbps 업링크 전역 12개 리전. CPU 시작 시간: 월 $2.48; 프로비저닝에 소요되는 시간 60초; CUDA 이미지는 GPU 계획에 따라 사전 베이킹됩니다. Cloudzy는 이후 독립적으로 운영되었습니다. 2008, 서비스 122,000명 이상의 개발자, 그리고 평가는 4.6 / 5 by 706+ reviewers Trustpilot에서.

CPU 시작 시간:
월 $2.48
GPU 유형
RTX · 프로
프로비저닝
60초
지역
전 세계 12개
가동시간 SLA
99.95%
환불
14일

AI 개발자가 Cloudzy를 선택하는 이유

클라우드는 AI를 배송합니다.

AI 워크로드가 여기에 속하는 네 가지 이유

AMD EPYC + NVMe

CPU 추론을 위한 최신 EPYC, 빠른 모델 로드를 위한 NVMe. GPU 계획에 PCI 패스스루를 통한 전용 GPU가 있습니다.

14일 환불 보장

Cloudzy에서 실제 추론 지연 시간 테스트를 실행해 보세요. SLO에 맞지 않으면 14일 이내에 환불해 주세요.

99.95% 가동 시간

프로덕션 AI API에는 사용량이 많을 때 재부팅되지 않는 호스트가 필요합니다. 지난 30일 SLA는 status.cloudzy.com에서 공개적으로 추적되었습니다.

채팅의 엔지니어

CUDA 버전, NCCL 오류 또는 vLLM 튜닝에 문제가 있습니까? 몇 시간이 아닌 몇 분 만에 AI 워크로드 경험을 갖춘 엔지니어입니다.

AI 스택

어떤 프레임워크든 가져오세요.
실행됩니다.

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang 모두 깔끔하게 실행됩니다. 미리 구운 GPU의 CUDA 이미지는 드라이버 댄스를 건너뛸 계획입니다. CPU 계획은 양자화된 추론을 처리하고 노동자를 저렴하게 고용합니다.

GPU 계획에 준비된 Docker + nvidia-container-toolkit
파이토치
CPU 및 GPU
텐서플로우
CPU 및 GPU
vLLM
GPU LLM 제공
올라마
CPU + GPU LLM
포옹하는 얼굴
트랜스포머 · 디퓨저
pg벡터
RAG 벡터 스토어
Qdrant
벡터 DB
랭체인
에이전트 프레임워크

사용 사례

AI 팀이 실행하는 것
Cloudzy.

LLM 추론 API

자체 OpenAI 호환 엔드포인트 뒤에서 양자화된 7B~70B급 LLM을 제공하세요. GPU의 vLLM 또는 TGI, 대형 CPU의 llama.cpp / Ollama. 토큰으로 고객에게 비용을 청구하세요.

RAG 백엔드

CPU VPS의 Postgres + pgVector 또는 Qdrant, 임베딩/생성을 위한 선택적 GPU 상자. NVMe는 벡터 조회가 빠르게 유지됨을 의미합니다.

에이전트 런타임

OpenAI/Anthropic API 및 자체 데이터를 사용하는 장기 실행 LangChain 또는 LlamaIndex 에이전트. 고정 IP는 도구 호출을 안정적으로 유지합니다.

이미지/비디오 생성

RTX급 GPU의 Stable Diffusion, SDXL, ComfyUI, 비디오 모델. NVMe를 사용하면 몇 분이 아닌 몇 초 만에 모델을 교체할 수 있습니다.

미세 조정 및 훈련

LoRA/QLoRA는 데이터센터급 GPU에 대한 RTX급 전체 매개변수 교육을 미세 조정합니다. 사전 구운 CUDA, NCCL, PyTorch.

작업자 삽입

16~32GB CPU VPS에서 문장 변환기 작업자를 실행하여 호출당 SaaS 요금을 지불하지 않고도 수백만 개의 문서를 포함할 수 있습니다.

60s
프로비저닝
40 Gbps
업링크
NVMe 전용
저장
12
지역
99.95%
가동시간 SLA
14일
환불

글로벌 네트워크

12개 리전. 4개 대륙.
추론 대기 시간이 해결되었습니다.

AI API를 고객 가까이에 배치하세요. 한 지역의 CPU 게이트웨이를 다른 지역의 GPU 상자와 쌍으로 연결합니다.

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI 계획

양자화된 LLM · RAG · 임베딩. CPU는 충분합니다.

많은 AI 워크로드가 CPU에 바인딩되어 있습니다. 시간별 청구 · 모든 요금제 50% 할인 · GPU 요금제는 에 별도로 표시됨 /가격.

12 GB DDR5

RAG 백엔드 · 벡터 DB · 임베딩

$34.98 /월
$69.95/mo -50%
지금 배포
14일 환불 보장
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • 올라마/vLLM CPU
  • Root SSH · KVM
16 GB DDR5

중형 CPU 추론 · API 게이트웨이

$49.98 /월
$99.95/mo -50%
지금 배포
14일 환불 보장
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • 올라마/vLLM CPU
  • Root SSH · KVM

자주 묻는 질문. AI VPS

자주 묻는 질문, 명확한 답변.

AI VPS란 무엇입니까?

AI VPS는 AI 워크로드, CPU 추론 및 RAG를 위한 높은 RAM 및 EPYC 코어 또는 교육 및 대규모 모델 서비스를 위한 NVIDIA급 GPU를 위해 크기 및 구성된 Linux 클라우드 서버입니다. SSH를 통해 스택을 설치하고 실행합니다. 동일한 VPS, 작업마다 모양이 다릅니다.

GPU가 필요합니까, 아니면 CPU가 작동합니까?

모델에 따라 다릅니다. 양자화된 7B급 LLM(llama.cpp 또는 Ollama를 통한 int4/int8)은 16~32GB CPU 계획에서 유용하게 실행됩니다. 임베딩 모델, 벡터 데이터베이스(Qdrant, Weaviate, pgVector) 및 RAG 파이프라인은 대부분 CPU에 바인딩되어 있습니다. 훈련, 대규모 모델 제공 또는 처리량이 많은 작업의 경우 GPU 계획이 필요합니다.

로드 밸런서 뒤에서 추론 API를 실행할 수 있나요?

예. GPU 상자에서 vLLM, TGI 또는 자체 FastAPI 서비스를 실행하고 API 게이트웨이 및 속도 제한기로 작은 CPU VPS를 앞에 배치합니다. 둘 다 동일한 지역의 개인 네트워크를 공유합니다. 40Gbps는 게이트웨이가 병목 현상을 일으키지 않는다는 것을 의미합니다.

RAG 백엔드를 호스팅할 수 있나요?

예, 그리고 가장 일반적인 모양 중 하나입니다. 16~32GB CPU VPS는 Postgres + pgVector 또는 Qdrant를 저렴하게 실행하며 생성을 위해 GPU VPS 또는 호스팅된 LLM을 호출합니다. NVMe는 벡터 쿼리를 신속하게 만들고, EPYC는 일괄 처리 시 임베딩 계산을 처리합니다.

어떤 AI 프레임워크가 지원되나요?

그들 모두. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX(적절한 하드웨어에서), Hugging Face Transformers, conda, pip 또는 Docker를 통해 설치합니다. GPU 계획에 미리 구운 CUDA 이미지, 모든 계획의 전체 루트.

GPU는 공유되나요?

아니요. GPU 계획은 PCI 패스스루를 사용하며 예약한 GPU는 VM, 전체 메모리 및 전체 클럭 전용입니다. CUDA, NVENC, NCCL은 모두 베어메탈 박스에서와 동일하게 동작합니다. 비용 효율적인 추론을 위한 RTX급, 고급 교육을 위한 데이터센터급.

얼마나 많은 VRAM이 필요합니까?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

환불 보장이 있나요?

예, 구매일로부터 14일 이내, 전액 환불, 질문 없음. 실제 추론 대기 시간 테스트, 실제 RAG 벤치마크를 실행하고 1년을 약속하기 전에 Cloudzy가 적합한지 결정하세요.

프로비저닝은 얼마나 빠른가요?

결제가 확인되면 AI VPS가 60초 안에 활성화됩니다. CPU 또는 GPU. GPU 계획에 미리 구운 CUDA 이미지는 'nvidia-smi'가 몇 초 내에 반환됨을 의미합니다. CPU 계획은 Ubuntu LTS 또는 Debian와 함께 제공되며 몇 분 안에 conda 또는 pip를 통해 AI 스택을 설치합니다.

이것을 프로덕션에 사용할 수 있나요?

예. 99.95% 가동 시간 SLA, 시간당 청구, 약정 없음, 전용 IP, 재구축 없이 실시간으로 RAM/vCPU/스토리지를 확장할 수 있는 옵션이 제공됩니다. 많은 고객이 Cloudzy의 프로덕션에서 AI 추론 및 RAG API를 실행합니다.

언제든 준비되어 있습니다.
60초 만에 AI VPS.

워크로드에 필요한 형태를 선택하세요. 추론용 CPU/RAG; 훈련용 GPU. 동일한 패널.

신용카드 불필요 · 14일 환불 보장 · 언제든 취소 가능