50% off 全プラン、期間限定。料金は $2.48/mo

AIVPSホスティング

AI ワークロード、
お好みの構成を選んでください。

推論・RAGには高RAM CPU、トレーニングにはNVIDIA クラスの GPU、すべて同じ VPS パネルから管理できます。
2008年創業の独立系クラウド。月額$2.48〜・60秒でroot SSH。

4.6 · 728 reviews on Trustpilot

CPU から $2.48/mo · GPU プランオン 価格設定 · 14日間返金保証

~ ssh root@ai-nyc-001 接続
root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Ollama ランタイムをインストール中... 完了
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
マニフェスト取得中 · 4.7 GB を NVMe にダウンロード中
モデル準備完了 · CPU 推論開始中
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"こんにちは!本日はどのようなご用件でしょうか?"}
root@ai-nyc-001:~# _

AI VPS の概要

Cloudzy AI VPS ホスティングを2種類のプランで提供しています。量子化 LLM 推論・RAG・パイプライン向けの高 RAM CPU プランと、 NVIDIA級 GPU — トレーニングおよび大規模モデルの推論向けプラン。 実行環境: AMD EPYC, NVMe ストレージ、 そして 40 Gbps アップリンク全体 12地域CPU は以下から開始します $2.48 per month; プロビジョニングには 60秒; CUDA イメージは GPU プランにあらかじめ組み込まれています。 Cloudzy は 2008、提供する 122,000人以上の開発者、で評価されています 4.6 / 5 by 728+ reviewers Trustpilot上で。

CPUは以下から始まります
$2.48 / month
GPUの種類
RTX · Pro
プロビジョニング
60秒
地域
12 ワールドワイド
稼働時間 SLA
99.95%
返金保証
14日間

AIを使って開発する人たちがCloudzyを選ぶ理由

クラウドの ships AIをリリースする

AIワークロードをここで動かすべき、4つの理由。

AMD EPYC + NVMe

最新の EPYC を CPU 推論に、NVMe を高速モデルロードに活用。GPU プランでは PCI パススルーによる専有 GPU を提供。

14日間返金保証

Cloudzy で実際の推論レイテンシーをテストしてください。SLO を満たさなければ、14 日以内に返金対応いたします。

99.95%のアップタイム

本番環境のAIワークロードには、ピーク時に再起動しないホストが必要です。直近30日間のSLAはstatus.cloudzy.comで公開中。

チャットエンジニア

CUDA のバージョン違い、NCCL エラー、vLLM のチューニングで詰まっていますか? AI ワークロードの経験を持つエンジニアが、数時間ではなく数分で対応します。

AIスタック

どんなフレームワークでも対応しています。
動作します。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang、どれもそのまま動作します。GPUプランのCUDAイメージはあらかじめ構成済みなので、ドライバのセットアップは不要です。CPUプランは、量子化推論や埋め込みワーカーをコストを抑えて実行できます。

Docker + nvidia-container-toolkitはGPUプランで利用可能
PyTorch
CPU と GPU
TensorFlow
CPU と GPU
vLLM
GPU LLM サービス
Ollama
CPU + GPU LLM
Hugging Face
Transformers · Diffusers
pgvector
RAG ベクターストア
Qdrant
ベクトル DB
LangChain
エージェントフレームワーク

ユースケース

AIチームが選ぶインフラ
Cloudzy.

LLM 推論 API

量子化した7B〜70Bクラスの LLM を、独自のOpenAI互換エンドポイントで公開できます。GPU 上で vLLM または TGI を、大容量 CPU 上で llama.cpp / Ollama を動かして、トークン単位で顧客に課金しましょう。

RAG バックエンド

pgvector または Qdrant を CPU VPS 上で運用し、埋め込み・生成用に GPU ボックスをオプションで追加。NVMe により、ベクトル検索のレスポンスを高速に保てます。

エージェントランタイム

長時間稼働するLangChainやLlamaIndexのエージェントが、OpenAI・AnthropicのAPIや自社データにアクセスする構成でも、固定IPでツール呼び出しを安定させます。

画像・動画生成

Stable Diffusion、SDXL、ComfyUI、ビデオモデルをRTXクラスのGPUで動かせます。NVMeなら、モデルの切り替えが数分ではなく数秒で完了します。

ファインチューニングとトレーニング

LoRA / QLoRA ファインチューニングはRTXクラスGPUで、フルパラメータ学習はデータセンター向けGPUで実行できます。CUDA、NCCL、PyTorchはあらかじめインストール済みです。

埋め込みワーカー

16~32 GB CPU VPS 上で sentence-transformers ワーカーを動かして、API 従量課金 SaaS なしで数百万件のドキュメントをエンベッドしましょう。

60s
プロビジョニング
40 Gbps
アップリンク
NVMeのみ
ストレージ
12
地域
99.95%
稼働時間 SLA
14日間
返金保証

グローバルネットワーク

12リージョン、4大陸。
推論レイテンシの問題、解決済み。

AIの API をユーザーの近くに配置。ある拠点では CPU ゲートウェイ、別の拠点では GPU サーバーを組み合わせて運用できます。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AIプラン

量子化 LLM · RAG · エンベディング。 CPUで十分です。

多くのAIワークロードはCPU依存です。時間課金 · 全プラン50%オフ · GPUプランは別途 /pricing.

12 GB DDR5

RAGバックエンド・ベクターDB・埋め込み処理

$34.98 /月
$69.95/mo −50%
今すぐデプロイ
14日間返金保証
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • ルート SSH · KVM
16 GB DDR5

中規模 CPU 推論 · API ゲートウェイ

$49.98 /月
$99.95/mo −50%
今すぐデプロイ
14日間返金保証
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • ルート SSH · KVM

よくある質問。AI VPS

よくある質問 ストレートな回答。

AI VPSとは何ですか?

AI VPS とは、AI ワークロード向けに構成された Linux クラウドサーバーです。推論や RAG には高 RAM・高 EPYC コアの CPU を、トレーニングや大規模モデルの提供には NVIDIA クラスの GPU を選べます。SSH で接続し、必要なスタックをインストールして、すぐに動かせます。同じ VPS でも、用途に応じて異なる構成を選択できます。

GPU が必要ですか?それとも CPU で対応できますか?

モデルによって異なります。量子化された7Bクラスの LLM(llama.cpp または Ollama 経由の int4 / int8)は 16~32 GB の CPU プランで十分に動作します。Embedding モデル、ベクトルデータベース(Qdrant、Weaviate、pgvector)、および RAG パイプラインは主に CPU バウンドです。トレーニング、より大規模なモデルサービング、またはスループット集約的なタスクには、GPU プランが必要です。

ロードバランサーの背後で推論 API を実行できますか?

はい。vLLM、TGI、または独自のFastAPIサービスをGPUマシンで動かし、APIゲートウェイ兼レートリミッターとして小さなCPU VPSを前段に置くだけです。両者は同一リージョンのプライベートネットワークを共有します。40 Gbpsあれば、ゲートウェイがボトルネックになることはありません。

RAGバックエンドはホストできますか?

はい、これは最もよく見られる構成のひとつです。16〜32 GB CPU VPS に Postgres + pgvector か Qdrant を低コストで動かし、生成処理は別の GPU VPS またはホスト型 LLM に任せます。NVMe でベクター検索を高速化し、バッチ処理の埋め込み計算は EPYC が担います。

対応しているAIフレームワークは何ですか?

すべて対応しています。PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX(対応ハードウェア上)、Hugging Face Transformers、conda・pip・Docker経由でインストール可能。GPU プランにはCUDAイメージをあらかじめ組み込み済み、すべてのプランでフルroot権限を提供。

GPUは共有リソースですか?

いいえ。GPU プランは PCI パススルーを使用しており、予約した GPU はお客様の VM に専有されます。メモリもクロック数もフル割り当てです。CUDA、NVENC、NCCL の動作はベアメタル環境と変わりません。費用対効果の高い推論には RTX クラス、本格的なトレーニングにはデータセンタークラスをご利用ください。

VRAM はどのくらい必要ですか?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

返金保証はありますか?

購入から14日以内であれば、理由を問わず全額返金します。実際の推論レイテンシテストやRAGベンチマークを試したうえで、年間契約を結ぶ前にCloudzyが要件を満たすか確認してください。

プロビジョニングはどれくらい速いですか?

お支払いが確認され次第、60秒でAI VPSが起動します。CPUプランもGPUプランもご利用いただけます。GPUプランにはCUDAイメージがあらかじめ用意されているため、`nvidia-smi`が数秒以内に応答します。CPUプランはUbuntu LTSまたはDebianに対応しており、condaまたはpipで数分以内にAIスタックをインストールできます。

本番環境で使えますか?

はい。稼働率99.95%保証 SLA、時間単位の課金、縛りなし、専用IP、そしてサーバーを再構築せずにCPU/vCPU/ストレージをライブでスケールできます。多くのお客様が Cloudzy からAI推論やRAG APIを本番環境で運用しています。

準備は整っています。
AI VPS を60秒で。

ワークロードに合ったプランを選べます。推論・RAGには CPU、トレーニングには GPU。管理パネルは共通です。

クレジットカード不要・14日間返金保証・いつでもキャンセル可能