LLM 추론 API
자체 OpenAI 호환 엔드포인트 뒤에서 양자화된 7B~70B급 LLM을 제공하세요. GPU의 vLLM 또는 TGI, 대형 CPU의 llama.cpp / Ollama. 토큰으로 고객에게 비용을 청구하세요.
국가를 선택하면 Cloudzy를 해당 언어로 볼 수 있습니다.
AI VPS 호스팅
추론/RAG용 대용량 RAM CPU 또는 교육용 NVIDIA급 GPU, 동일한 VPS 패널.
2008년부터 독립 클라우드. 월 $2.48부터 · 60초 만에 root SSH.
CPU의 $2.48/mo · GPU 계획 가격 · 14일 환불
AI VPS 개요
Cloudzy 대용량 RAM의 두 가지 형태로 AI VPS 호스팅을 제공합니다. CPU는 양자화된 LLM 추론, RAG 및 파이프라인을 계획하고 있으며, NVIDIA급 훈련 및 대규모 모델 제공을 위한 GPU 계획입니다. 계획은 다음과 같이 실행됩니다. AMD EPYC, NVMe 스토리지, 그리고 40 Gbps 업링크 전역 12개 리전. CPU 시작 시간: 월 $2.48; 프로비저닝에 소요되는 시간 60초; CUDA 이미지는 GPU 계획에 따라 사전 베이킹됩니다. Cloudzy는 이후 독립적으로 운영되었습니다. 2008, 서비스 122,000명 이상의 개발자, 그리고 평가는 4.6 / 5 by 706+ reviewers Trustpilot에서.
AI 개발자가 Cloudzy를 선택하는 이유
AI 워크로드가 여기에 속하는 네 가지 이유
CPU 추론을 위한 최신 EPYC, 빠른 모델 로드를 위한 NVMe. GPU 계획에 PCI 패스스루를 통한 전용 GPU가 있습니다.
Cloudzy에서 실제 추론 지연 시간 테스트를 실행해 보세요. SLO에 맞지 않으면 14일 이내에 환불해 주세요.
프로덕션 AI API에는 사용량이 많을 때 재부팅되지 않는 호스트가 필요합니다. 지난 30일 SLA는 status.cloudzy.com에서 공개적으로 추적되었습니다.
CUDA 버전, NCCL 오류 또는 vLLM 튜닝에 문제가 있습니까? 몇 시간이 아닌 몇 분 만에 AI 워크로드 경험을 갖춘 엔지니어입니다.
AI 스택
PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang 모두 깔끔하게 실행됩니다. 미리 구운 GPU의 CUDA 이미지는 드라이버 댄스를 건너뛸 계획입니다. CPU 계획은 양자화된 추론을 처리하고 노동자를 저렴하게 고용합니다.
사용 사례
자체 OpenAI 호환 엔드포인트 뒤에서 양자화된 7B~70B급 LLM을 제공하세요. GPU의 vLLM 또는 TGI, 대형 CPU의 llama.cpp / Ollama. 토큰으로 고객에게 비용을 청구하세요.
CPU VPS의 Postgres + pgVector 또는 Qdrant, 임베딩/생성을 위한 선택적 GPU 상자. NVMe는 벡터 조회가 빠르게 유지됨을 의미합니다.
OpenAI/Anthropic API 및 자체 데이터를 사용하는 장기 실행 LangChain 또는 LlamaIndex 에이전트. 고정 IP는 도구 호출을 안정적으로 유지합니다.
RTX급 GPU의 Stable Diffusion, SDXL, ComfyUI, 비디오 모델. NVMe를 사용하면 몇 분이 아닌 몇 초 만에 모델을 교체할 수 있습니다.
LoRA/QLoRA는 데이터센터급 GPU에 대한 RTX급 전체 매개변수 교육을 미세 조정합니다. 사전 구운 CUDA, NCCL, PyTorch.
16~32GB CPU VPS에서 문장 변환기 작업자를 실행하여 호출당 SaaS 요금을 지불하지 않고도 수백만 개의 문서를 포함할 수 있습니다.
글로벌 네트워크
AI API를 고객 가까이에 배치하세요. 한 지역의 CPU 게이트웨이를 다른 지역의 GPU 상자와 쌍으로 연결합니다.
CPU AI 계획
많은 AI 워크로드가 CPU에 바인딩되어 있습니다. 시간별 청구 · 모든 요금제 50% 할인 · GPU 요금제는 에 별도로 표시됨 /가격.
양자화된 7B 추론 · CPU
RAG 백엔드 · 벡터 DB · 임베딩
중형 CPU 추론 · API 게이트웨이
Big-RAM CPU · 에이전트 · 파이프라인
자주 묻는 질문. AI VPS
워크로드에 필요한 형태를 선택하세요. 추론용 CPU/RAG; 훈련용 GPU. 동일한 패널.
신용카드 불필요 · 14일 환불 보장 · 언제든 취소 가능