50%オフ 全プラン対象、期間限定。月額 $2.48/mo

AI VPS ホスティング

AI ワークロード、
あなたの形を選んでください。

推論/RAG 用の高 RAM CPU、またはトレーニング用の NVIDIA クラス GPU、同じ VPS パネル。
2008年から独立運営のクラウド。月額2.48ドルから · root SSH 60秒。

4.6 · 706 reviews on Trustpilot

CPUから $2.48/mo · GPU の計画 価格設定 · 14日間の返金

~ ssh root@ai-nyc-001 接続されています
root@ai-nyc-001:~# カール -fsSL https://ollama.com/install.sh |しー
Ollama ランタイムをインストールしています...完了
root@ai-nyc-001:~# オラマは llama3.1:8b-instruct-q4 を実行します
マニフェストのプル、NVMe への 4.7 GB のダウンロード
モデル準備完了・CPU推論開始
root@ai-nyc-001:~# カールローカルホスト:11434/api/generate -d '...'
{"response":"こんにちは! 今日はどのようにお手伝いできますか?"}
root@ai-nyc-001:~# _

AI VPS の概要

Cloudzy 2 つの形状、高 RAM の AI VPS ホスティングを提供 CPU は、量子化 LLM 推論、RAG、パイプラインを計画しています。 NVIDIAクラス GPUプランはトレーニングと大規模モデルの提供に対応します。 計画は次のように実行されます AMD EPYC, NVMeストレージ、 そして 40 Gbps アップリンク、対象リージョンは 12リージョン。 CPU の開始時刻 月額2.48ドル;プロビジョニングにかかる​​時間 60秒; CUDA イメージは GPU プランで事前にベイクされています。 Cloudzyは2008年より独立して運営してきました。 2008、提供範囲は 122,000名以上の開発者、評価は 4.6 / 5 by 706+ reviewers Trustpilotで。

CPU の開始時刻
月額2.48ドル
GPUの種類
RTX・プロ
プロビジョニング
60秒
地域
世界12カ所
稼働率SLA
99.95%
返金
14日

AI 開発者が Cloudzy を選ぶ理由

という雲が AIを出荷します。

AI ワークロードがここに属する 4 つの理由。

AMD EPYC + NVMe

CPU 推論には最新の EPYC、高速モデルロードには NVMe。 GPU プランの PCI パススルー経由の専用 GPU。

14日間返金保証

Cloudzy で実際の推論レイテンシ テストを実行します。 SLO に適合しない場合は、14 日以内に返金してください。

99.95% の稼働率

実稼働 AI API には、ピーク時に再起動しないホストが必要です。過去 30 日間の SLA は、status.cloudzy.com で公的に追跡されます。

チャットでエンジニアが対応

CUDA のバージョン、NCCL エラー、または vLLM チューニングで行き詰まっていませんか? AI ワークロードの経験を持つエンジニア。時間ではなく数分。

AI スタック

あらゆるフレームワークを持ち込んでください。
走ります。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang はすべて正常に実行されます。プリベーク済み GPU プラン上の CUDA イメージはドライバーのダンスをスキップします。 CPU プランは量子化された推論を処理し、 労働者を安く埋め込む。

Docker + nvidia-container-toolkit が GPU プランに対応
パイトーチ
CPUとGPU
TensorFlow
CPUとGPU
vLLM
GPU LLM の提供
オラマ
CPU + GPU LLM
ハグフェイス
Transformers・Diffusers
ベクター
RAG ベクター ストア
クドラント
ベクトルDB
ラングチェーン
エージェントフレームワーク

ユースケース

AI チームが実行するもの
クラウドジー。

LLM 推論 API

独自の OpenAI 互換エンドポイントの背後で量子化された 7B ~ 70B クラスの LLM を提供します。 GPU では vLLM または TGI、ビッグ CPU では llama.cpp / Ollama。顧客にトークンで請求します。

RAG バックエンド

CPU VPS 上の Postgres + pgvector または Qdrant、埋め込み/生成用のオプションの GPU ボックス。 NVMe は、ベクトル ルックアップが高速に行われることを意味します。

エージェントのランタイム

OpenAI/Anthropic API および独自のデータにアクセスする、長時間実行される LangChain または LlamaIndex エージェント。静的 IP により、ツール呼び出しが安定します。

画像/ビデオ生成

RTX クラス GPU 上のStable Diffusion、SDXL、ComfyUI、ビデオ モデル。 NVMe を使用すると、モデルを数分ではなく数秒で交換できます。

微調整とトレーニング

RTXクラスGPUでLoRA/QLoRAのファインチューニング、データセンタークラスGPUでフルパラメータトレーニング。CUDA、NCCL、PyTorchはプリインストール済み。

ワーカーの埋め込み

16 ~ 32 GB CPU の VPS でsentence-transformersワーカーを実行して、通話ごとの SaaS 料金を支払うことなく数百万のドキュメントを埋め込みます。

60s
プロビジョニング
40 Gbps
アップリンク
NVMeのみ
ストレージ
12
地域
99.95%
稼働率SLA
14日
返金

グローバルネットワーク

12リージョン。4大陸。
推論の遅延が解決されました。

AI API を顧客の近くに配置します。あるリージョンの CPU ゲートウェイと別のリージョンの GPU ボックスをペアにします。

us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1

CPU AI 計画

量子化された LLM、RAG、エンベディング。 CPUは十分です。

AI ワークロードの多くは CPU に依存します。時間単位の請求 · すべてのプランの 50% オフ · GPU プランは別途記載されています /価格設定.

12 GB DDR5

RAG バックエンド · ベクター DB · エンベディング

$34.98 /月
$69.95/mo −50%
今すぐデプロイ
14日間返金保証
  • 4 vCPU @ EPYC
  • 300 GB NVMe
  • 8 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM
16 GB DDR5

中型CPU推論・APIゲートウェイ

$49.98 /月
$99.95/mo −50%
今すぐデプロイ
14日間返金保証
  • 8 vCPU @ EPYC
  • 350 GB NVMe
  • 10 TB · 40 Gbps
  • Ollama / vLLM CPU
  • Root SSH · KVM

よくある質問。 AI VPS

よくある質問、 明快な回答。

AI VPS とは何ですか?

AI VPS は、AI ワークロード向けにサイズ設定および構成された Linux クラウド サーバーであり、CPU 推論と RAG 用の高 RAM および EPYC コア、またはトレーニングと大規模モデルの提供用の NVIDIA クラス GPU を備えています。 SSH で接続し、スタックをインストールして実行します。同じ VPS ですが、ジョブごとに形状が異なります。

GPU は必要ですか? それとも CPU は動作しますか?

モデルにより異なります。量子化された 7B クラス LLM (llama.cpp または Ollama 経由の int4 / int8) は、16 ~ 32 GB の CPU プランで効率的に実行されます。埋め込みモデル、ベクトル データベース (Qdrant、Weaviate、pgvector)、および RAG パイプラインは、ほとんどが CPU 依存です。トレーニング、大規模なモデルの提供、またはスループットを重視するものには、GPU プランが必要です。

ロードバランサーの背後で推論 API を実行できますか?

はい。 GPU ボックス上で vLLM、TGI、または独自の FastAPI サービスを実行し、API ゲートウェイおよびレート リミッターとして小型の CPU VPS を前面に配置します。どちらも同じリージョン内のプライベート ネットワークを共有します。 40 Gbps は、ゲートウェイがボトルネックになることがないことを意味します。

RAG バックエンドをホストできますか?

はい、これは最も一般的な形状の 1 つです。 16 ~ 32 GB の CPU VPS は、Postgres + pgvector または Qdrant を安価に実行します。生成のために GPU VPS またはホストされた LLM を呼び出します。 NVMe はベクトル クエリを高速に実行し、EPYC はバッチ処理時に埋め込み計算を処理します。

どの AI フレームワークがサポートされていますか?

全員です。 PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX (適切なハードウェア上)、Hugging Face Transformers、conda、pip、または Docker 経由でインストールします。 GPU プランの事前にベイクされた CUDA イメージ、すべてのプランの完全なルート。

GPUは共有されていますか?

いいえ、GPU プランは PCI パススルーを使用します。予約した GPU は VM、フル メモリ、フル クロック専用です。 CUDA、NVENC、NCCL はすべて、ベアメタル ボックス上と同じように動作します。費用対効果の高い推論には RTX クラス、ハイエンドのトレーニングにはデータセンター クラス。

どれくらいの VRAM が必要ですか?

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

返金保証はありますか?

はい、購入から 14 日間、全額返金、質問は不要です。実際の推論レイテンシー テスト、実際の RAG ベンチマークを実行し、1 年をコミットする前に Cloudzy が適合するかどうかを判断してください。

プロビジョニングの速さは?

支払いが確認されると、AI VPS は 60 秒以内に稼働します。 CPU または GPU。 GPU プランの事前にベイクされた CUDA イメージは、「nvidia-smi」が数秒以内に戻ることを意味します。 CPU プランには Ubuntu LTS または Debian が同梱されており、conda または pip 経由で数分で AI スタックをインストールできます。

これを本番環境で使用できますか?

はい。 99.95% の稼働時間 SLA、時間単位の課金、コミットメントなし、専用 IP、および再構築せずに RAM/vCPU/ストレージをライブで拡張するオプション。当社のお客様の多くは、実稼働環境で Cloudzy の AI 推論と RAG API を実行しています。

いつでも、あなた次第。
60 秒で AI VPS。

ワークロードに必要な形状を選択してください。推論用CPU / RAG;トレーニング用のGPU。同じパネルです。

クレジットカード不要 · 14日間返金保証 · いつでもキャンセル可