LLM推論
vLLM または Text Generation Inference を使って Llama 3、Mistral、DeepSeek、Qwen を提供できます。RTX 4090 は 70B モデルの 4-bit 量子化、RTX 5090 は 70B の 8-bit 量子化、A100 は非量子化に対応します。
国を選択すると、Cloudzyをその言語で表示できます。
GPU VPS ホスティング
完全なGPUパススルー。RTX 6000 Pro、A100、RTX 5090、RTX 4090。CUDA、cuDNN、PyTorchはあらかじめインストール済み。
NVMe + 40 Gbps ネットワーク。2008年から続く独立系クラウド。
から始まる $506.35/mo · 年間契約で 35% 割引 · クレジットカード不要
GPU VPS の概要
Cloudzy GPU VPS プランを専用で提供 RTX 6000 Pro、Nvidia A100、RTX 5090、 と RTX 4090 カードイン 1×から4× 構成、開始価格 $506.35 per month。 各プランには最新の CUDA、cuDNN、 および Nvidia ドライバーがプリインストールされており、AMD EPYC + DDR5 上で動作し、 NVMeのみ ストレージおよび 40 Gbps アップリンクを備え、 60秒で起動できます。GPU は専用パススルーです。vGPU でも MIG でも共有でもありません。Cloudzy は 2008 そして評価されています 4.6 / 5 by 736+ reviewers Trustpilot上で。
ML チームが Cloudzy を選ぶ理由
チームが AWS / GCP / ハイパースケーラーの GPU から Cloudzy に移行する 4 つの理由。
物理カード全体が専有利用できます。vGPU のスライスも MIG パーティションも他テナントとの競合もありません。CUDA コア、VRAM、PCIe レーン、すべて専用です。
最新の Nvidia ドライバー、CUDA ツールキット、cuDNN をあらかじめ組み込んだ Ubuntu イメージを提供。PyTorch、TensorFlow、JAX、Hugging Face、pip install すればすぐにトレーニングを開始できます。
純粋な NVMe ストレージでデータセットの読み込みがボトルネックになりません。40 Gbps のネットワークにより、100 GB の Hugging Face モデルの取得も数分ではなく数秒で完了します。
チャットで対応するのは実務エンジニアです。マルチ GPU トレーニングの構成、CUDA OOM のデバッグ、Llama 推論のチューニングまで、多くのチームをサポートしてきた経験があるため、迅速に回答できます。
ユースケース
vLLM または Text Generation Inference を使って Llama 3、Mistral、DeepSeek、Qwen を提供できます。RTX 4090 は 70B モデルの 4-bit 量子化、RTX 5090 は 70B の 8-bit 量子化、A100 は非量子化に対応します。
ComfyUI または Automatic1111 を使って SDXL、Flux、またはファインチューニング済み Stable Diffusion チェックポイントを実行できます。RTX 4090 は標準的な 1024×1024 の SDXL で 30 枚/分以上を達成します。
LoRA、QLoRA、フルファインチューニングに対応。7B〜13B の非量子化ファインチューニングには A100 が最適です。4× A100 は適切なシャーディング(FSDP / DeepSpeed)により 70B まで対応できます。
RTX カードでの Cycles + OptiX は、アニメーションスタジオにとって最速の選択肢です。RTX 4090 に搭載された 24 GB の VRAM は、シングルフレームのプロダクションシーンの大部分をカバーします。
Whisper Large、Faster-Whisper、YOLO、Segment Anything に対応。RTX 4090 プランでも、これらのモデルをリアルタイム推論で十分な余裕を持って実行できます。
埋め込み生成、検索パイプライン、データセット前処理などに最適です。時間課金で実行し、出力をスナップショットして削除すれば、同じワークロードを AWS/GCP で借り続けるより安く済みます。
よくある質問。GPU VPS
カードを選び、リージョンを選び、クリックするだけ。CUDAはすでにインストール済みです。