LLM 推論
vLLM またはテキスト生成推論を使用して、Llama 3、Mistral、DeepSeek、または Qwen を提供します。 RTX 4090 は 4 ビットで 70B を処理し、RTX 5090 は 8 ビットで 70B を処理し、A100 は非量子化を処理します。
国を選ぶと、Cloudzyをあなたの言語で表示します。
GPU VPS ホスティング
完全な GPU パススルー。 RTX 6000 Pro、A100、RTX 5090、RTX 4090。プリインストールされた CUDA、cuDNN、PyTorch に対応。
NVMe + 40 Gbps ネットワーク。 2008 年から独立したクラウド。
開始価格 $506.35/mo · 年間 35% オフ · クレジット カードは必要ありません
GPU VPS の概要
Cloudzy 専用のGPU VPSプランを販売 RTX 6000 プロ、NVIDIA A100、RTX 5090、 そして RTX4090 中のカード 1×~4× から始まる構成 $506.35 per month。 各プランには最新のバージョンがプリインストールされて出荷されます。 CUDA、cuDNN、 および Nvidia ドライバー、AMD EPYC + DDR5 で動作 NVMeのみ ストレージと 40 Gbps アップリンク、およびプロビジョニング 60秒。 GPU は vGPU ではなく専用パススルーです。 MIG ではなく、共有でもありません。 Cloudzy は、以来独立して動作しています。 2008 評価は 4.6 / 5 by 713+ reviewers Trustpilotで。
ML チームが Cloudzy を選ぶ理由
チームが AWS / GCP / ハイパースケーラー GPU から Cloudzy に移行する 4 つの理由。
完全な物理カードはあなたのものであり、vGPU スライス、MIG パーティション、他のテナントとの競合はありません。 CUDA コア、VRAM、PCIe レーンはすべて専用です。
最新の Nvidia ドライバー、CUDA ツールキット、および cuDNN が Ubuntu イメージにプリベイクされています。 PyTorch、TensorFlow、JAX、Hugging Face、pip をインストールすればトレーニングが完了します。
純粋な NVMe ストレージなので、データセットの読み込みがボトルネックになりません。 40 Gbps ネットワークとは、100 GB の Hugging Face モデルのプルが数分ではなく数秒で完了することを意味します。
チャット上の本物のエンジニア。私たちは、十分なチームがマルチ GPU トレーニングをセットアップし、CUDA OOM をデバッグし、Llama 推論を調整して、答えがすぐに返されるように支援してきました。
GPUラインナップ
RTX 6000 Pro は、48 GB ECC VRAM を備えたプログレードの推論とレンダリングを実現します。 トレーニングおよび大規模な VRAM ワークロード用の A100。最新の推論の場合は RTX 5090。 RTX 4090 は、最大 70B (4 ビット) のコスト効率の高い推論を実現します。マルチ GPU プランが利用可能で、VRAM 予算に応じて選択してください。
ユースケース
vLLM またはテキスト生成推論を使用して、Llama 3、Mistral、DeepSeek、または Qwen を提供します。 RTX 4090 は 4 ビットで 70B を処理し、RTX 5090 は 8 ビットで 70B を処理し、A100 は非量子化を処理します。
ComfyUI または Automatic1111 を使用して SDXL、Flux、または微調整された Stable Diffusion チェックポイントを実行します。 RTX 4090 は、標準 1024×1024 SDXL で 30 以上の画像/分を達成します。
LoRA、QLoRA、完全な微調整。 A100 は、7B ~ 13B の量子化されていない微調整のスイート スポットです。 4× A100 は、適切なシャーディング (FSDP / DeepSpeed) で最大 70B を処理します。
RTX カード上の Cycles + OptiX は、アニメーション スタジオにとって最速のパスです。 RTX 4090 の 24 GB VRAM は、シングルフレーム制作シーンの大部分をカバーします。
大きくささやき、より速くささやき、YOLO、あらゆるものをセグメント化します。 RTX 4090 プランでも、快適なヘッドルームを備えたこれらのモデルでリアルタイム推論を実行します。
埋め込み生成、取得パイプライン、データセットの前処理。時間単位で支払い、ジョブを実行し、出力のスナップショットを作成し、ボックスを破棄すると、同じワークロードに対して AWS/GCP でレンタルするよりも安くなります。
価格設定
現在、年間請求は 35%オフ すべての GPU プランで。
よくある質問。 GPU VPS
カードを選択し、地域を選択してクリックします。 CUDAはすでにインストールされています。
クレジットカード不要 · 14日間返金保証 · いつでもキャンセル可