ลด 50% ทุกแพลน เวลาจำกัด เริ่มต้นที่ $2.48/mo

AI VPS โฮสติ้ง

ปริมาณงาน AI
เลือกรูปร่างของคุณ

CPU RAM สูงสำหรับการอนุมาน / RAG หรือ GPU ระดับ NVIDIA สำหรับการฝึกฝน แผง VPS เดียวกัน
คลาวด์อิสระ ตั้งแต่ปี 2008 เริ่มต้น $2.48/เดือน · root SSH ใน 60 วินาที

4.6 · 706 reviews on Trustpilot

CPUจาก $2.48/mo · แผน GPU เปิดอยู่ การกำหนดราคา · คืนเงินภายใน 14 วัน

~ ssh root@ai-nyc-001 เชื่อมต่อแล้ว
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | ซ
กำลังติดตั้งรันไทม์ Ollama... เสร็จสิ้น
root@ai-nyc-001:~# llama วิ่ง llama3.1:8b-instruct-q4
กำลังดึงรายการ · กำลังดาวน์โหลด 4.7 GB ไปยัง NVMe
โมเดลพร้อม · กำลังเริ่มต้นการอนุมาน CPU
root@ai-nyc-001:~# curl localhost:11434/api/สร้าง -d '...'
{"response":สวัสดี! วันนี้ฉันจะช่วยคุณได้อย่างไร"}
root@ai-nyc-001:~# _

ภาพรวม AI VPS

Cloudzy ให้บริการโฮสติ้ง AI VPS ในสองรูปแบบ High-RAM CPU วางแผนสำหรับการอนุมาน LLM, RAG และไปป์ไลน์เชิงปริมาณ รวมถึง NVIDIA-คลาส แผน GPU สำหรับการฝึกอบรมและการให้บริการโมเดลขนาดใหญ่ แผนดำเนินไป AMD EPYC, NVMe storage, และ 40 Gbps uplinks ทั่ว 12 region. CPUเริ่มต้นที่ 2.48 $ ต่อเดือน; การจัดสรรใช้เวลา 60 วินาที; อิมเมจ CUDA ได้รับการอบล่วงหน้าบนแผน GPU Cloudzy ได้ดำเนินการอย่างเป็นอิสระตั้งแต่นั้นเป็นต้นมา 2008, ให้บริการ นักพัฒนา 122,000+ คน, และได้คะแนน 4.6 / 5 by 706+ reviewers บน Trustpilot

CPUเริ่มต้นที่
$2.48 / เดือน
ประเภท GPU
RTX · มือโปร
การจัดเตรียม
60 วินาที
ภูมิภาค
12 แห่งทั่วโลก
Uptime SLA
99.95%
คืนเงิน
14 วัน

เหตุใดนักพัฒนา AI จึงเลือก Cloudzy

เมฆนั่นเอง จัดส่งเอไอ

สี่เหตุผลที่ภาระงาน AI ของคุณอยู่ที่นี่

AMD EPYC + NVMe

EPYC ล่าสุดสำหรับการอนุมาน CPU, NVMe สำหรับการโหลดโมเดลที่รวดเร็ว GPU เฉพาะผ่าน PCI passthrough บนแผน GPU

คืนเงินภายใน 14 วัน

รันการทดสอบเวลาแฝงของการอนุมานจริงบน Cloudzy หากไม่เหมาะกับ SLO ของคุณ โปรดคืนเงินภายใน 14 วัน

สถานะการออนไลน์ 99.95%

AI API ที่ใช้งานจริงจำเป็นต้องมีโฮสต์ที่ไม่รีบูตในช่วงที่มีการใช้งานสูงสุด ติดตาม SLA 30 วันสุดท้ายแบบสาธารณะที่ status.cloudzy.com

วิศวกรในแชท

ติดอยู่ในเวอร์ชัน CUDA ข้อผิดพลาด NCCL หรือการปรับแต่ง vLLM วิศวกรที่มีประสบการณ์ด้าน AI ไม่กี่นาที ไม่ใช่ชั่วโมง

สแต็ค AI

เอากรอบอะไรก็ได้
มันทำงาน

PyTorch, TensorFlow, JAX, vLLM, TGI, Ollama, llama.cpp, sglang ทั้งหมดทำงานได้อย่างหมดจด อบไว้ล่วงหน้า รูปภาพ CUDA บนแผน GPU ข้ามการเต้นของไดรเวอร์ แผน CPU จัดการการอนุมานเชิงปริมาณและ ฝังคนงานราคาถูก

Docker + nvidia-container-toolkit พร้อมสำหรับแผน GPU
ไพทอร์ช
CPUและGPU
เทนเซอร์โฟลว์
CPUและGPU
วีแอลแอลเอ็ม
การให้บริการ GPU LLM
โอลามา
CPU + GPU LLM
กอดหน้า
Transformers · Diffusers
pgvector
ร้านเวกเตอร์ RAG
คิวดรานท์
เวคเตอร์ดีบี
แลงเชน
กรอบการทำงานของตัวแทน

กรณีการใช้งาน

ทีม AI ใดที่ดำเนินการอยู่
Cloudzy

API การอนุมาน LLM

ให้บริการ LLM คลาส 7B–70B เชิงปริมาณหลังตำแหน่งข้อมูลที่รองรับ OpenAI ของคุณเอง vLLM หรือ TGI บน GPU, llama.cpp / Ollama บน CPU ขนาดใหญ่ เรียกเก็บเงินลูกค้าของคุณด้วยโทเค็น

แบ็กเอนด์ RAG

Postgres + pgvector หรือ Qdrant บน CPU VPS, กล่อง GPU เสริมสำหรับการฝัง/การสร้าง NVMe ช่วยให้การค้นหาเวกเตอร์มีความรวดเร็วอยู่เสมอ

รันไทม์ของตัวแทน

เอเจนต์ LangChain หรือ LlamaIndex ที่รันมายาวนานซึ่งเข้าถึง OpenAI/Anthropic API และข้อมูลของคุณเอง IP แบบคงที่ช่วยให้การเรียกเครื่องมือมีความเสถียร

การสร้างภาพ / วิดีโอ

การกระจายที่เสถียร, SDXL, ComfyUI, โมเดลวิดีโอบน GPU ระดับ RTX NVMe ช่วยให้คุณสลับโมเดลได้ภายในไม่กี่วินาที ไม่ใช่ไม่กี่นาที

การปรับแต่งและการฝึกอบรมอย่างละเอียด

LoRA / QLoRA ปรับแต่งอย่างละเอียดบนคลาส RTX การฝึกอบรมแบบเต็มพารามิเตอร์บน GPU ระดับศูนย์ข้อมูล CUDA, NCCL, PyTorch ที่อบไว้ล่วงหน้า

การฝังคนงาน

เรียกใช้งานผู้ปฏิบัติงานแปลงประโยคบน CPU VPS ขนาด 16–32 GB เพื่อฝังเอกสารนับล้านโดยไม่ต้องจ่ายอัตรา SaaS ต่อการโทร

60s
การจัดเตรียม
40 Gbps
อัปลิงค์
NVMe เท่านั้น
พื้นที่จัดเก็บ
12
ภูมิภาค
99.95%
Uptime SLA
14 วัน
คืนเงิน

เครือข่ายทั่วโลก

12 region 4 ทวีป
เวลาแฝงของการอนุมาน ได้รับการแก้ไขแล้ว

วาง AI API ของคุณไว้ใกล้กับลูกค้าของคุณ จับคู่เกตเวย์ CPU ในภูมิภาคหนึ่งกับกล่อง GPU ในอีกภูมิภาคหนึ่ง

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

แผน CPU AI

LLM เชิงปริมาณ · RAG · การฝัง CPUก็พอแล้ว

ปริมาณงาน AI จำนวนมากเชื่อมโยงกับ CPU การเรียกเก็บเงินรายชั่วโมง · ลด 50% ทุกแผน · แผน GPU แสดงรายการแยกกัน /ราคา.

12 GB DDR5

แบ็กเอนด์ RAG · ฐานข้อมูลเวกเตอร์ · การฝัง

$34.98 /เดือน
$69.95/mo −50%
ติดตั้งเลย
คืนเงินภายใน 14 วัน
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM
16 GB DDR5

การอนุมาน CPU ขนาดกลาง · เกตเวย์ API

$49.98 /เดือน
$99.95/mo −50%
ติดตั้งเลย
คืนเงินภายใน 14 วัน
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • CPU Ollama / vLLM
  • Root SSH · KVM

คำถามที่พบบ่อย เอไอ VPS

คำถามที่พบบ่อย คำตอบตรงไปตรงมา

AI VPS คืออะไร?

AI VPS คือเซิร์ฟเวอร์คลาวด์ Linux ที่มีขนาดและกำหนดค่าสำหรับปริมาณงาน AI, RAM สูงและคอร์ EPYC สำหรับการอนุมาน CPU และ RAG หรือ GPU ระดับ NVIDIA สำหรับการฝึกฝนและการให้บริการโมเดลขนาดใหญ่ คุณใช้ SSH ติดตั้งสแต็กของคุณแล้วรัน VPS เดียวกัน รูปร่างที่แตกต่างกันสำหรับงานที่แตกต่างกัน

ฉันจำเป็นต้องมี GPU หรือ CPU จะทำงานหรือไม่

ขึ้นอยู่กับรุ่น LLM คลาส 7B เชิงปริมาณ (int4 / int8 ผ่าน llama.cpp หรือ Ollama) ทำงานได้อย่างมีประโยชน์บนแผน CPU ขนาด 16–32 GB โมเดลแบบฝัง ฐานข้อมูลเวกเตอร์ (Qdrant, Weaviate, pgvector) และไปป์ไลน์ RAG ส่วนใหญ่จะเชื่อมโยงกับ CPU สำหรับการฝึกฝน การให้บริการโมเดลขนาดใหญ่ หรืออะไรก็ตามที่ต้องใช้ปริมาณการประมวลผลสูง คุณต้องมีแผน GPU

ฉันสามารถรัน API การอนุมานเบื้องหลังโหลดบาลานเซอร์ได้หรือไม่

ใช่. เรียกใช้ vLLM, TGI หรือบริการ FastAPI ของคุณเองบนกล่อง GPU วาง CPU VPS ขนาดเล็กไว้ข้างหน้าเป็นเกตเวย์ API และตัวจำกัดอัตรา ทั้งสองแชร์เครือข่ายส่วนตัวในภูมิภาคเดียวกัน 40 Gbps หมายความว่าเกตเวย์ไม่เคยเป็นจุดคอขวด

ฉันสามารถโฮสต์แบ็กเอนด์ RAG ได้หรือไม่

ใช่ และมันเป็นหนึ่งในรูปร่างที่พบบ่อยที่สุด CPU VPS ขนาด 16–32 GB รัน Postgres + pgvector หรือ Qdrant ในราคาถูก คุณเรียกใช้ GPU VPS หรือ LLM ที่โฮสต์ไว้สำหรับการสร้าง NVMe ทำให้การสืบค้นเวกเตอร์รวดเร็ว EPYC จัดการการประมวลผลแบบฝังเมื่อคุณแบทช์

รองรับเฟรมเวิร์ก AI ใดบ้าง

ทั้งหมด. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (บนฮาร์ดแวร์ที่เหมาะสม), Hugging Face Transformers, ติดตั้งผ่าน conda, pip หรือ Docker อิมเมจ CUDA ที่อบไว้ล่วงหน้าบนแผน GPU รูทเต็มรูปแบบในทุกแผน

มีการแชร์ GPU หรือไม่

ไม่ แผน GPU ใช้ PCI passthrough โดย GPU ที่คุณจองนั้นมีไว้สำหรับ VM หน่วยความจำเต็ม และนาฬิกาแบบเต็ม CUDA, NVENC, NCCL ทั้งหมดทำงานเหมือนกับในกล่องBare Metal คลาส RTX สำหรับการอนุมานที่คุ้มต้นทุน คลาสศูนย์ข้อมูลสำหรับการฝึกอบรมระดับสูง

ฉันจำเป็นต้องมี VRAM เท่าใด

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

มีการรับประกันคืนเงินไหม?

ใช่ 14 วันนับจากวันที่ซื้อ คืนเงินเต็มจำนวน ไม่มีการถามคำถามใดๆ รันการทดสอบเวลาแฝงในการอนุมานจริง เกณฑ์มาตรฐาน RAG จริงของคุณ และตัดสินใจว่า Cloudzy เหมาะสมหรือไม่ก่อนที่คุณจะตัดสินใจใช้เวลาหนึ่งปี

การจัดเตรียมเร็วแค่ไหน?

เมื่อการชำระเงินได้รับการยืนยัน AI VPS ของคุณจะใช้งานได้ภายใน 60 วินาที CPU หรือ GPU อิมเมจ CUDA ที่อบไว้ล่วงหน้าบนแผน GPU หมายความว่า `nvidia-smi` จะกลับมาภายในไม่กี่วินาที แผน CPU จัดส่งพร้อมกับ Ubuntu LTS หรือ Debian ติดตั้ง AI Stack ของคุณผ่าน conda หรือ pip ภายในไม่กี่นาที

ฉันสามารถใช้สิ่งนี้ในการผลิตได้หรือไม่?

ใช่. SLA ความพร้อมในการทำงาน 99.95% การเรียกเก็บเงินรายชั่วโมง ไม่มีข้อผูกมัด IP เฉพาะ และตัวเลือกในการปรับขนาด RAM/vCPU/พื้นที่จัดเก็บแบบเรียลไทม์โดยไม่ต้องสร้างใหม่ ลูกค้าหลายรายของเราใช้งานการอนุมาน AI และ RAG API ในการผลิตจาก Cloudzy

พร้อมเมื่อคุณพร้อม
AI VPS ใน 60 วินาที

เลือกรูปแบบความต้องการปริมาณงานของคุณ CPU สำหรับการอนุมาน / RAG; GPU สำหรับการฝึกอบรม แผงเดียวกัน.

ไม่ต้องใช้บัตรเครดิต · คืนเงินภายใน 14 วัน · ยกเลิกได้ทุกเมื่อ