AI News HubLIVE
サイト内リライト2 分で読了

さらなる巨大な飛躍:Rubin CPX専用アクセラレータとラック

Nvidiaは、プリフィルフェーズに特化して最適化されたRubin CPXを発表しました。シングルダイのRubin CPXは、メモリ帯域幅よりもコンピュートFLOPSを重視しています。これは推論におけるゲームチェンジャーであり、その重要性は2024年3月に発表されたGB200 NVL72 Oberonラックスケールフォームファクターに次ぐものです。プリフィルとデコードという推論の異なるフェーズに特化したハードウェアによってのみ、分離型サービングの真の可能性が発揮されます。Nvidiaのラックシステム設計の差は峡谷のように広がり、競合他社はロードマップを再構成せざるを得なくなりました。

ソースSemiAnalysis著者: Dylan Patel

NvidiaはAIインフラサミットで、推論のプリフィルフェーズに特化したGPU「Rubin CPX」を発表しました。従来の汎用GPUとは異なり、Rubin CPXは計算スループットを最大化し、メモリ帯域幅を抑制する設計です。プリフィルフェーズは計算集約的であり、メモリ帯域幅の需要が低いためです。20 PFLOPSのFP4密結合計算能力を提供する一方、メモリ帯域幅はわずか2 TB/sで、128GBのGDDR7メモリを搭載し、高価なHBMを使用するR200と比較してコストを大幅に削減します。

Rubin CPXの発表により、Vera Rubinラックシリーズは3つの構成に拡張されました:VR200 NVL144(R200のみ)、VR200 NVL144 CPX(R200とCPXの混合)、およびデュアルラック構成(独立したVR200 NVL144ラックとVR CPXラック)。混合ラックは各計算トレイに4つのR200と8つのCPXを統合し、総電力約370kWです。デュアルラック構成では、顧客はプリフィルとデコードの比率を柔軟に調整でき、障害の影響範囲も小さくなります。

プリフィル専用ハードウェアの利点はコスト効率にあります。プリフィルフェーズではメモリ帯域幅の利用率が低いため、高価なHBMを使用することは無駄です。Rubin CPXは安価なGDDR7と簡素なパッケージング(CoWOS不要)を採用し、GBあたりのメモリコストを50%以上削減します。さらに、PCIe Gen 6のみで接続し、高価なNVLinkスイッチやバックプレーンを排除することで、GPUあたり約8000ドルのシステムコストを節約します。

この専門化設計は分離型サービングを促進します。従来の方法ではプリフィルとデコードを同じハードウェアで実行するとリソース競合が発生し非効率でした。Rubin CPXでプリフィルを、R200でデコードを処理することで、各ワークロードを最適化し総所有コスト(TCO)を削減できます。例えば、プリフィルシナリオではR200のメモリ帯域幅利用率が一桁台になることがあり、1時間あたり0.90ドルの無駄が生じますが、Rubin CPXはこの無駄を大幅に削減します。

Nvidiaのこの動きは競合他社に大きな圧力をかけています。AMDのMI400シリーズはNvidiaのラックスケールに近づいていますが、現在は自社のプリフィルチップを開発する必要があり、そうしなければトークンエコノミーで遅れをとることになります。Google TPUは3D Torusネットワークで優位性を持ちますが、性能対コスト比を維持するためにはプリフィル専用チップが必要です。AWS Trainium3やMeta MTIAv4などのカスタムチッププロジェクトも、プリフィルチップの開発をロードマップに追加する必要があります。

Rubin CPXは推論コストを大幅に削減しますが、欠点もあります。固定比率の混合ラックは柔軟性に欠け、デュアルラック構成では追加のスペースとネットワーク接続が必要です。また、モデルや需要の変化に応じてプリフィル対デコード比率を最適化することは課題となる可能性があります。それでも、Nvidiaは継続的な革新により競合他社との差を再び広げ、競合他社を設計図に戻らせています。

総じて、Rubin CPXはAI推論ハードウェアの重要な進歩を示し、専門化された分離型サービングを通じてコストを削減し効率を向上させます。NvidiaがHuangの法則を推進し続ける中、将来的にはデコード専用チップなどのさらなる最適化が期待されます。