An AI VPS is a Linux cloud server sized and configured for AI workloads, high RAM and EPYC cores for CPU inference and RAG, or NVIDIA-class GPUs for training and large-model serving. You SSH in, install your stack, and run. Same VPS, different shapes for different jobs.

Do I need a GPU, or will CPU work?

Depends on the model. Quantized 7B-class LLMs (int4 / int8 via llama.cpp or Ollama) run usefully on a 16–32 GB CPU plan. Embedding models, vector databases (Qdrant, Weaviate, pgvector), and RAG pipelines are mostly CPU-bound. For training, larger model serving, or anything throughput-heavy, you want a GPU plan.

Can I run an inference API behind a load balancer?

Yes. Run vLLM, TGI, or your own FastAPI service on a GPU box, put a small CPU VPS in front as the API gateway and rate limiter. Both share a private network in the same region. 40 Gbps means the gateway is never the bottleneck.

Can I host a RAG backend?

Yes, and it's one of the most common shapes. A 16–32 GB CPU VPS runs Postgres + pgvector or Qdrant cheaply, you call out to a GPU VPS or hosted LLM for generation. NVMe makes vector queries snappy, EPYC handles the embedding compute when you batch.

Which AI frameworks are supported?

All of them. PyTorch, TensorFlow, JAX, ONNX, llama.cpp, Ollama, vLLM, TGI, sglang, MLX (on the appropriate hardware), Hugging Face Transformers, install via conda, pip, or Docker. Pre-baked CUDA images on the GPU plans, full root on every plan.

No. GPU plans use PCI passthrough, the GPU you book is dedicated to your VM, full memory and full clocks. CUDA, NVENC, NCCL all behave the same as on a bare-metal box. RTX-class for cost-effective inference, datacenter-class for high-end training.

Is there a money-back guarantee?

Yes, 14 days from purchase, full refund, no questions asked. Run your real inference latency test, your real RAG benchmark, and decide if Cloudzy fits before you commit to a year.

How fast is provisioning?

Once payment is confirmed, your AI VPS is live in 60 seconds. CPU or GPU. Pre-baked CUDA images on GPU plans mean `nvidia-smi` returns within seconds. CPU plans ship with Ubuntu LTS or Debian, install your AI stack via conda or pip in a few minutes.

Can I use this in production?

Yes. 99.95% uptime SLA, hourly billing, no commitments, dedicated IPs, and the option to scale RAM/vCPU/storage live without rebuild. Many of our customers run AI inference and RAG APIs in production from Cloudzy.

AIVPSホスティング

AI ワークロード、
お好みの構成を選んでください。

Name: Cloudzy AI VPS Hosting
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (728 reviews)

推論・RAGには高RAM CPU、トレーニングにはNVIDIA クラスの GPU、すべて同じ VPS パネルから管理できます。
2008年創業の独立系クラウド。月額$2.48〜・60秒でroot SSH。

4.6 · 728 reviews on Trustpilot

AI VPS を CPU にデプロイする GPU のプランを見る

CPU から $2.48/mo · GPU プランオン価格設定 · 14日間返金保証

~ ssh root@ai-nyc-001 接続

root@ai-nyc-001:~# curl -fsSL https://ollama.com/install.sh | sh
Ollama ランタイムをインストール中... 完了
root@ai-nyc-001:~# ollama run llama3.1:8b-instruct-q4
マニフェスト取得中 · 4.7 GB を NVMe にダウンロード中
モデル準備完了 · CPU 推論開始中
root@ai-nyc-001:~# curl localhost:11434/api/generate -d '...'
{"response":"こんにちは！本日はどのようなご用件でしょうか？"}
root@ai-nyc-001:~# _

AI VPS の概要

Cloudzy AI VPS ホスティングを2種類のプランで提供しています。量子化 LLM 推論・RAG・パイプライン向けの高 RAM CPU プランと、 NVIDIA級 GPU — トレーニングおよび大規模モデルの推論向けプラン。実行環境： AMD EPYC, NVMe ストレージ、そして 40 Gbps アップリンク全体 12地域CPU は以下から開始します $2.48 per month; プロビジョニングには 60秒; CUDA イメージは GPU プランにあらかじめ組み込まれています。 Cloudzy は 2008、提供する 122,000人以上の開発者、で評価されています 4.6 / 5 by 728+ reviewers Trustpilot上で。

CPUは以下から始まります: $2.48 / month
GPUの種類: RTX · Pro
プロビジョニング: 60秒
地域: 12 ワールドワイド
稼働時間 SLA: 99.95%
返金保証: 14日間

AIを使って開発する人たちがCloudzyを選ぶ理由

クラウドの ships AIをリリースする

AIワークロードをここで動かすべき、4つの理由。

AMD EPYC + NVMe

最新の EPYC を CPU 推論に、NVMe を高速モデルロードに活用。GPU プランでは PCI パススルーによる専有 GPU を提供。

14日間返金保証

Cloudzy で実際の推論レイテンシーをテストしてください。SLO を満たさなければ、14 日以内に返金対応いたします。

99.95%のアップタイム

本番環境のAIワークロードには、ピーク時に再起動しないホストが必要です。直近30日間のSLAはstatus.cloudzy.comで公開中。

チャットエンジニア

CUDA のバージョン違い、NCCL エラー、vLLM のチューニングで詰まっていますか? AI ワークロードの経験を持つエンジニアが、数時間ではなく数分で対応します。

AIスタック

どんなフレームワークでも対応しています。
動作します。

PyTorch、TensorFlow、JAX、vLLM、TGI、Ollama、llama.cpp、sglang、どれもそのまま動作します。GPUプランのCUDAイメージはあらかじめ構成済みなので、ドライバのセットアップは不要です。CPUプランは、量子化推論や埋め込みワーカーをコストを抑えて実行できます。

Docker + nvidia-container-toolkitはGPUプランで利用可能

PyTorch

CPU と GPU

TensorFlow

CPU と GPU

vLLM

GPU LLM サービス

Ollama

CPU + GPU LLM

Hugging Face

Transformers · Diffusers

pgvector

RAG ベクターストア

Qdrant

ベクトル DB

LangChain

エージェントフレームワーク

ユースケース

AIチームが選ぶインフラ
Cloudzy.

LLM 推論 API

量子化した7B〜70Bクラスの LLM を、独自のOpenAI互換エンドポイントで公開できます。GPU 上で vLLM または TGI を、大容量 CPU 上で llama.cpp / Ollama を動かして、トークン単位で顧客に課金しましょう。

RAG バックエンド

pgvector または Qdrant を CPU VPS 上で運用し、埋め込み・生成用に GPU ボックスをオプションで追加。NVMe により、ベクトル検索のレスポンスを高速に保てます。

エージェントランタイム

長時間稼働するLangChainやLlamaIndexのエージェントが、OpenAI・AnthropicのAPIや自社データにアクセスする構成でも、固定IPでツール呼び出しを安定させます。

画像・動画生成

Stable Diffusion、SDXL、ComfyUI、ビデオモデルをRTXクラスのGPUで動かせます。NVMeなら、モデルの切り替えが数分ではなく数秒で完了します。

ファインチューニングとトレーニング

LoRA / QLoRA ファインチューニングはRTXクラスGPUで、フルパラメータ学習はデータセンター向けGPUで実行できます。CUDA、NCCL、PyTorchはあらかじめインストール済みです。

埋め込みワーカー

16～32 GB CPU VPS 上で sentence-transformers ワーカーを動かして、API 従量課金 SaaS なしで数百万件のドキュメントをエンベッドしましょう。

60s

プロビジョニング

40 Gbps

アップリンク

NVMeのみ

ストレージ

地域

99.95%

稼働時間 SLA

14日間

返金保証

グローバルネットワーク

12リージョン、4大陸。
推論レイテンシの問題、解決済み。

AIの API をユーザーの近くに配置。ある拠点では CPU ゲートウェイ、別の拠点では GPU サーバーを組み合わせて運用できます。

12リージョンをすべて見る

 us-utah-1us-dal-1us-lax-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-zrh-1me-dxb-1ap-sgp-1ap-tyo-1 

CPU AIプラン

量子化 LLM · RAG · エンベディング。 CPUで十分です。

多くのAIワークロードはCPU依存です。時間課金 · 全プラン50%オフ · GPUプランは別途 /pricing.

最も人気

4 GB DDR5

量子化 7B 推論 · CPU

$14.47 /月

$28.95/mo −50%

今すぐデプロイ

14日間返金保証

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
Ollama / vLLM CPU
ルート SSH · KVM

12 GB DDR5

RAGバックエンド・ベクターDB・埋め込み処理

$34.98 /月

$69.95/mo −50%

今すぐデプロイ

14日間返金保証

4 vCPU @ EPYC
300 GB NVMe
8 TB · 40 Gbps
Ollama / vLLM CPU
ルート SSH · KVM

16 GB DDR5

中規模 CPU 推論 · API ゲートウェイ

$49.98 /月

$99.95/mo −50%

今すぐデプロイ

14日間返金保証

8 vCPU @ EPYC
350 GB NVMe
10 TB · 40 Gbps
Ollama / vLLM CPU
ルート SSH · KVM

最も人気

24 GB DDR5

Big-RAM CPU · エージェント · パイプライン

$69.97 /月

$139.95/mo −50%

今すぐデプロイ

14日間返金保証

8 vCPU @ EPYC
450 GB NVMe
12 TB · 40 Gbps
Ollama / vLLM CPU
ルート SSH · KVM

GPU が必要ですか？GPU のプランを見る

よくある質問。AI VPS

よくある質問ストレートな回答。

AI VPSとは何ですか？

AI VPS とは、AI ワークロード向けに構成された Linux クラウドサーバーです。推論や RAG には高 RAM・高 EPYC コアの CPU を、トレーニングや大規模モデルの提供には NVIDIA クラスの GPU を選べます。SSH で接続し、必要なスタックをインストールして、すぐに動かせます。同じ VPS でも、用途に応じて異なる構成を選択できます。

GPU が必要ですか？それとも CPU で対応できますか？

モデルによって異なります。量子化された7Bクラスの LLM（llama.cpp または Ollama 経由の int4 / int8）は 16～32 GB の CPU プランで十分に動作します。Embedding モデル、ベクトルデータベース（Qdrant、Weaviate、pgvector）、および RAG パイプラインは主に CPU バウンドです。トレーニング、より大規模なモデルサービング、またはスループット集約的なタスクには、GPU プランが必要です。

ロードバランサーの背後で推論 API を実行できますか？

はい。vLLM、TGI、または独自のFastAPIサービスをGPUマシンで動かし、APIゲートウェイ兼レートリミッターとして小さなCPU VPSを前段に置くだけです。両者は同一リージョンのプライベートネットワークを共有します。40 Gbpsあれば、ゲートウェイがボトルネックになることはありません。

RAGバックエンドはホストできますか？

はい、これは最もよく見られる構成のひとつです。16〜32 GB CPU VPS に Postgres + pgvector か Qdrant を低コストで動かし、生成処理は別の GPU VPS またはホスト型 LLM に任せます。NVMe でベクター検索を高速化し、バッチ処理の埋め込み計算は EPYC が担います。

対応しているAIフレームワークは何ですか？

すべて対応しています。PyTorch、TensorFlow、JAX、ONNX、llama.cpp、Ollama、vLLM、TGI、sglang、MLX（対応ハードウェア上）、Hugging Face Transformers、conda・pip・Docker経由でインストール可能。GPU プランにはCUDAイメージをあらかじめ組み込み済み、すべてのプランでフルroot権限を提供。

GPUは共有リソースですか？

いいえ。GPU プランは PCI パススルーを使用しており、予約した GPU はお客様の VM に専有されます。メモリもクロック数もフル割り当てです。CUDA、NVENC、NCCL の動作はベアメタル環境と変わりません。費用対効果の高い推論には RTX クラス、本格的なトレーニングにはデータセンタークラスをご利用ください。

VRAM はどのくらい必要ですか？

8 GB for SDXL or 7B-class LLMs at int4. 24 GB for 13B at fp16 or 70B at int4. 40+ GB for fp16 70B and full-precision training. Match the GPU plan to your model size, quantization changes the math, so test before committing to a tier.

返金保証はありますか？

購入から14日以内であれば、理由を問わず全額返金します。実際の推論レイテンシテストやRAGベンチマークを試したうえで、年間契約を結ぶ前にCloudzyが要件を満たすか確認してください。

プロビジョニングはどれくらい速いですか？

お支払いが確認され次第、60秒でAI VPSが起動します。CPUプランもGPUプランもご利用いただけます。GPUプランにはCUDAイメージがあらかじめ用意されているため、`nvidia-smi`が数秒以内に応答します。CPUプランはUbuntu LTSまたはDebianに対応しており、condaまたはpipで数分以内にAIスタックをインストールできます。

本番環境で使えますか？

はい。稼働率99.95%保証 SLA、時間単位の課金、縛りなし、専用IP、そしてサーバーを再構築せずにCPU/vCPU/ストレージをライブでスケールできます。多くのお客様が Cloudzy からAI推論やRAG APIを本番環境で運用しています。

準備は整っています。
AI VPS を60秒で。

ワークロードに合ったプランを選べます。推論・RAGには CPU、トレーニングには GPU。管理パネルは共通です。

AI VPS を CPU にデプロイする GPU のプランを見る

クレジットカード不要・14日間返金保証・いつでもキャンセル可能

AI ワークロード、 お好みの構成を選んでください。

クラウドの ships AIをリリースする

AMD EPYC + NVMe

14日間返金保証

99.95%のアップタイム

チャットエンジニア

どんなフレームワークでも対応しています。 動作します。

AIチームが選ぶインフラ Cloudzy.

LLM 推論 API

RAG バックエンド

エージェントランタイム

画像・動画生成

ファインチューニングとトレーニング

埋め込みワーカー

12リージョン、4大陸。 推論レイテンシの問題、解決済み。

量子化 LLM · RAG · エンベディング。 CPUで十分です。

よくある質問 ストレートな回答。

AI VPSとは何ですか？

GPU が必要ですか？それとも CPU で対応できますか？

ロードバランサーの背後で推論 API を実行できますか？

RAGバックエンドはホストできますか？

対応しているAIフレームワークは何ですか？

GPUは共有リソースですか？

VRAM はどのくらい必要ですか？

返金保証はありますか？

プロビジョニングはどれくらい速いですか？

本番環境で使えますか？

準備は整っています。 AI VPS を60秒で。

AI ワークロード、
お好みの構成を選んでください。

どんなフレームワークでも対応しています。
動作します。

AIチームが選ぶインフラ
Cloudzy.

12リージョン、4大陸。
推論レイテンシの問題、解決済み。

よくある質問ストレートな回答。

準備は整っています。
AI VPS を60秒で。