LLM 推理 API
在您自己的 OpenAI 兼容端点后面提供量化的 7B–70B 级 LLM。 GPU 上的 vLLM 或 TGI,big-CPU 上的 llama.cpp / Ollama。通过令牌向您的客户计费。
人工智能VPS托管
用于推理/RAG 的高 RAM CPU,或用于训练的 NVIDIA 级 GPU — 相同的 VPS 面板。
独立云,自 2008 年起。2.48 美元/月起 · 60 秒内完成 root SSH。
中央处理器从 $2.48/mo · GPU 计划 定价 · 14天退款
AI VPS 一览
Cloudzy 提供两种形式的 AI VPS 托管 — 高 RAM 用于量化 LLM 推理、RAG 和管道的 CPU 计划,以及 NVIDIA 级 用于训练和大型模型服务的 GPU 计划。 计划继续进行 AMD 霄龙, NVMe存储, 和 40 Gbps 上行链路跨越 12个地区。 CPU 启动于 $2.48 per month;配置需要 60 秒; CUDA 图像是在 GPU 计划上预烘焙的。 Cloudzy 自此独立运营 2008, 服务 122,000+ 开发者,并被评为 4.6 / 5 by 684+ 评论者 在 Trustpilot 上。
为什么 AI 构建者选择 Cloudzy
您的人工智能工作负载属于这里的四个原因。
用于 CPU 推理的最新 EPYC,用于快速模型加载的 NVMe。 GPU 计划上通过 PCI 直通的专用 GPU。
在 Cloudzy 上运行真实的推理延迟测试。如果不符合您的 SLO,请在 14 天内退款。
生产 AI API 需要一台在高峰期间不会重新启动的主机。最近 30 天的 SLA 在 status.cloudzy.com 上公开跟踪。
纠结于 CUDA 版本、NCCL 错误或 vLLM 调整?具有人工智能工作负载经验的工程师只需几分钟而不是几小时。
人工智能堆栈
PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang — 全部运行干净。预烤 GPU 上的 CUDA 图像计划跳过驱动程序舞蹈。 CPU 计划处理量化推理和 廉价地安置工人。
使用案例
在您自己的 OpenAI 兼容端点后面提供量化的 7B–70B 级 LLM。 GPU 上的 vLLM 或 TGI,big-CPU 上的 llama.cpp / Ollama。通过令牌向您的客户计费。
CPU VPS 上的 Postgres + pgvector 或 Qdrant,用于嵌入/生成的可选 GPU 盒。 NVMe 意味着矢量查找保持快速。
长期运行的 LangChain 或 LlamaIndex 代理,可访问 OpenAI/Anthropic API 和您自己的数据。静态 IP 保持工具调用稳定。
RTX 级 GPU 上的稳定扩散、SDXL、ComfyUI、视频模型。 NVMe 可让您在几秒钟(而不是几分钟)内交换模型。
LoRA / QLoRA 对数据中心级 GPU 上的 RTX 级全参数训练进行微调。预烘焙 CUDA、NCCL、PyTorch。
在 16-32 GB CPU VPS 上运行句子转换器工作程序以嵌入数百万个文档,而无需支付每次调用的 SaaS 费率。
全球网络
让您的 AI API 靠近您的客户。将一个区域中的 CPU 网关与另一区域中的 GPU 盒配对。
量化7B推理·CPU
RAG 后端 · 矢量 DB · 嵌入
中型CPU推理·API网关
大 RAM CPU · 代理 · 管道
常见问题解答 — AI VPS
选择您的工作负载需要的形状。用于推理/RAG 的 CPU;用于训练的 GPU。相同的面板。
无需信用卡 · 14 天退款保证 · 随时取消