2025-09-11 04:57 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

さらなる巨大な飛躍：Rubin CPX専用アクセラレータとラック

Nvidiaは、プリフィルフェーズに特化して最適化されたRubin CPXを発表しました。シングルダイのRubin CPXは、メモリ帯域幅よりもコンピュートFLOPSを重視しています。これは推論におけるゲームチェンジャーであり、その重要性は2024年3月に発表されたGB200 NVL72 Oberonラックスケールフォームファクターに次ぐものです。プリフィルとデコードという推論の異なるフェーズに特化したハードウェアによってのみ、分離型サービングの真の可能性が発揮されます。Nvidiaのラックシステム設計の差は峡谷のように広がり、競合他社はロードマップを再構成せざるを得なくなりました。

ソースSemiAnalysis著者: Dylan Patel

記事インテリジェンス

エンジニア上級

要点

Rubin CPXはプリフィル専用GPUで、20 PFLOPSのFP4密結合計算と2 TB/sのメモリ帯域幅を備え、128GBのGDDR7を採用しコストを削減。
新しいVR200 NVL144 CPXおよびデュアルラック構成により、分離型推論のためのプリフィル対デコード比率を柔軟に設定可能。
Rubin CPXは高価なHBMとNVLinkオーバーヘッドを排除することでプリフィルコストを劇的に削減し、同時に推論需要を押し上げる。
AMD、Google TPU、AWS Trainiumなどの競合他社は、競争力を維持するために自社のプリフィルチップを開発する必要がある。

重要な理由

このニュースが重要なのは、Rubin CPXはプリフィル専用GPUで、20 PFLOPSのFP4密結合計算と2 TB/sのメモリ帯域幅を備え、128GBのGDDR7を採用しコストを削減ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NvidiaはAIインフラサミットで、推論のプリフィルフェーズに特化したGPU「Rubin CPX」を発表しました。従来の汎用GPUとは異なり、Rubin CPXは計算スループットを最大化し、メモリ帯域幅を抑制する設計です。プリフィルフェーズは計算集約的であり、メモリ帯域幅の需要が低いためです。20 PFLOPSのFP4密結合計算能力を提供する一方、メモリ帯域幅はわずか2 TB/sで、128GBのGDDR7メモリを搭載し、高価なHBMを使用するR200と比較してコストを大幅に削減します。

Rubin CPXの発表により、Vera Rubinラックシリーズは3つの構成に拡張されました：VR200 NVL144（R200のみ）、VR200 NVL144 CPX（R200とCPXの混合）、およびデュアルラック構成（独立したVR200 NVL144ラックとVR CPXラック）。混合ラックは各計算トレイに4つのR200と8つのCPXを統合し、総電力約370kWです。デュアルラック構成では、顧客はプリフィルとデコードの比率を柔軟に調整でき、障害の影響範囲も小さくなります。

プリフィル専用ハードウェアの利点はコスト効率にあります。プリフィルフェーズではメモリ帯域幅の利用率が低いため、高価なHBMを使用することは無駄です。Rubin CPXは安価なGDDR7と簡素なパッケージング（CoWOS不要）を採用し、GBあたりのメモリコストを50%以上削減します。さらに、PCIe Gen 6のみで接続し、高価なNVLinkスイッチやバックプレーンを排除することで、GPUあたり約8000ドルのシステムコストを節約します。

この専門化設計は分離型サービングを促進します。従来の方法ではプリフィルとデコードを同じハードウェアで実行するとリソース競合が発生し非効率でした。Rubin CPXでプリフィルを、R200でデコードを処理することで、各ワークロードを最適化し総所有コスト（TCO）を削減できます。例えば、プリフィルシナリオではR200のメモリ帯域幅利用率が一桁台になることがあり、1時間あたり0.90ドルの無駄が生じますが、Rubin CPXはこの無駄を大幅に削減します。

Nvidiaのこの動きは競合他社に大きな圧力をかけています。AMDのMI400シリーズはNvidiaのラックスケールに近づいていますが、現在は自社のプリフィルチップを開発する必要があり、そうしなければトークンエコノミーで遅れをとることになります。Google TPUは3D Torusネットワークで優位性を持ちますが、性能対コスト比を維持するためにはプリフィル専用チップが必要です。AWS Trainium3やMeta MTIAv4などのカスタムチッププロジェクトも、プリフィルチップの開発をロードマップに追加する必要があります。

Rubin CPXは推論コストを大幅に削減しますが、欠点もあります。固定比率の混合ラックは柔軟性に欠け、デュアルラック構成では追加のスペースとネットワーク接続が必要です。また、モデルや需要の変化に応じてプリフィル対デコード比率を最適化することは課題となる可能性があります。それでも、Nvidiaは継続的な革新により競合他社との差を再び広げ、競合他社を設計図に戻らせています。

総じて、Rubin CPXはAI推論ハードウェアの重要な進歩を示し、専門化された分離型サービングを通じてコストを削減し効率を向上させます。NvidiaがHuangの法則を推進し続ける中、将来的にはデコード専用チップなどのさらなる最適化が期待されます。