AI News HubLIVE
站内改写5 分で読了

最速・最大・最強:NVIDIA BlackwellがMLPerf Training 6.0を席巻

NVIDIA Blackwellプラットフォームは、MLPerf Training 6.0の全ベンチマークで最速のトレーニング時間を達成し、最大8,192 GPUにわたる大規模トレーニング能力を示し、信頼性機能を強調しています。

ソースNVIDIA Blog著者: Shruti Koparkar

画期的なAIモデルはすべて、トレーニング実行から始まります。トレーニングジョブを実行するインフラストラクチャは、チームが反復できる速度、構築できるモデルの規模、ジョブが確実に完了するかどうかなど、あらゆる要素を形作ります。モデルのサイズ、複雑さ、知能が増大するにつれて、トレーニングインフラストラクチャへの要求も高まっています。

MLPerf Training 6.0は、AIトレーニング性能を評価するための厳格でピアレビューされた一連の業界標準ベンチマークの最新版です。このラウンドで、NVIDIA Blackwellプラットフォームはすべてのカテゴリでリーダーシップを発揮し、以下の成果を示しました。

  • すべてのベンチマークで最速のトレーニング時間
  • NVIDIA Blackwell NVL72システムを使用した8,192 GPUにわたる最大規模のトレーニング
  • スイート内の7つのベンチマークすべてに結果を提出した唯一のプラットフォーム

NVIDIAは、極限のコデザインを通じて、パフォーマンス、スケール、信頼性を単一のプラットフォームに統合し、AIモデルビルダーがフロンティアモデルをより迅速に立ち上げ、トレーニングコストを最小化し、早期に収益を生み出せるようにします。

パフォーマンス:全ベンチマークで最速のトレーニング時間

MLPerf Training 6.0では、スイートに2つの新しい混合エキスパート(MoE)プリトレーニングワークロード(DeepSeek-V3 671BとGPT-OSS-20B)が追加され、MoEアーキテクチャの重要性が増していることが反映されています。NVIDIAプラットフォームは、すべてのベンチマークに結果を提出した唯一のプラットフォームであり、7つすべてで最速のトレーニング時間を達成しました。

今回、NVIDIAはGB200 NVL72とGB300 NVL72のラックスケールシステムの両方で結果を提出しました。各ラックスケールシステム内では、第5世代NVIDIA NVLinkスイッチが72のGPUすべてを高帯域幅で接続し、統一されたコンピュートとメモリのプールを形成し、それらを1つの巨大なGPUとして機能させます。大規模なMoEトレーニングは、MoE推論と同じオールツーオール通信の課題に直面します。トークンを適切なエキスパートサブネットワークにルーティングする必要があり、NVLinkの帯域幅の優位性が、大規模での高速かつ効率的な動作を可能にします。

NVIDIAはまた、厳格な精度要件を満たしながらパフォーマンスを向上させるNVFP4トレーニング手法を披露しました。これは、大規模および小規模のプリトレーニング、およびファインチューニングワークロードに適用されます。NVIDIAは、さまざまなモデルアーキテクチャにわたる低精度トレーニングの革新を推進し続けており、最近ではNVFP4を使用して、巨大な5,500億パラメータのNVIDIA Nemotron 3 Ultraモデルをプリトレーニングしました。

NVIDIA GB300 NVL72は、GB200 NVL72比最大1.6倍のパフォーマンスを実現:今回のラウンドでは、同等規模でGB300 NVL72のトレーニング速度がGB200 NVL72よりも最大1.6倍高速でした。NVFP4による高い計算密度、拡張されたメモリ容量、およびGPUがピークパフォーマンスを維持できるようにする高い電力上限など、Blackwell Ultraの主要な機能がこの改善を促進しています。

スケール:MLPerf Training史上最大のBlackwellクラスタ

大規模な分散トレーニングをサポートするため、NVIDIAはNVIDIA Quantum InfiniBandとNVIDIA Spectrum-X Ethernetという2つの補完的なスケールアウトネットワーキングプラットフォームを提供し、データセンターがインフラに最適化された大規模クラスタを構築できる柔軟性を提供します。

DeepSeek-V3 671B(スイート内で最大のMoEモデル)では、NVIDIAはGB200 NVL72システムを使用して8,192 GPUにスケールした結果を提出しました。これは、MLPerf Trainingにおけるこれまでの最大のBlackwellベースのサブミッションです。

NVIDIAはまた、Llama 3.1 405B(スイート内で最大の高密度LLMの1つ)で5,120 GPUのGB200 NVL72システムの結果も提出しました。

今回の結果は、NVIDIAとそのパートナーとのシステムアーキテクチャ、ネットワーキング、ソフトウェアにおける深いコエンジニアリングも反映しています。

  • Microsoft Azureは、GB200 NVL72システムを使用してLlama 3.1 405Bトレーニングを8,192 GPUにスケールし、7.07分で基準品質目標に到達しました。これはこのベンチマークの最速トレーニング時間です。
  • CoreWeaveは、DeepSeek-V3 671Bで最速のトレーニング時間を達成し、Spectrum-X Ethernetネットワーキングで接続されたGB300 NVL72システムを使用して、8,192 GPUスケールで2.02分で品質目標に到達しました。

大規模での信頼性:本番環境向けに設計

本番のトレーニング環境では、ジョブが数十万のGPUにわたって数週間または数か月に及ぶことがあります。その規模では、効果的なトレーニングスループットは、システムのパフォーマンスと、時間の経過とともに再現可能にする復元力の両方に依存します。

MLPerf Training v6.0の結果は、NVIDIAプラットフォームのパフォーマンスを示しています。復元力に関して、NVIDIAプラットフォームは2つの次元で設計されています。

  • 中断の低減:NVIDIA GPUは、障害が発生する前に回避するように構築されています。GPUがデータセンターに届く前に、NVIDIAは30以上の製造テスト段階でスクリーニングし、潜在的な障害を早期に発見します。展開後、信頼性、可用性、保守性エンジンがチップのほぼ全体を監視し、自己修復機能が検出された障害を自動的に回避し、ワークロードを中断しません。ネットワークレベルでは、Spectrum-X Ethernetが障害リンクをミリ秒単位で迂回し、ジョブを中断せずにファブリックの健全性を維持します。
  • 中断発生時の迅速な復旧:NVIDIA Resiliency Extension(NVRx)は、障害発生時の損失時間を最小限に抑え、障害検出、復旧、およびクラスタ全体のヘルスモニタリングにわたる機能を提供します。パフォーマンスの低下したノードを自動的に検出および管理し、クラスタ全体の速度低下を防ぎます。ノードで中断が発生した場合、ジョブ全体を再起動するのではなく、システムは最新のチェックポイント(トレーニング状態の保存されたスナップショット)から再開します。

NVIDIA上で構築されたフロンティアAI

NVIDIAのエコシステムパートナーも今回のラウンドに広く参加し、ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro、TTAを含む19の組織から印象的な提出がありました。これらのパートナーの多くは、最も要求の厳しいAIトレーニングワークロードの一部をNVIDIAインフラストラクチャ上で実行しています。

CoreWeaveは、Dell PowerRackシステム(Dell PowerEdgeサーバー搭載)内にNVIDIAインフラストラクチャを収容しており、これらのワークロードのいくつかをホストしています。Cohereは、GB200 NVL72上でNorthエージェントAIプラットフォームのトレーニングを3倍高速化しました。Midjourneyは、Blackwellクラスタ上でv8画像生成モデルをトレーニングし、現在はCoreWeave上で大規模なBlackwell Ultra GPU群を拡張して、今後の画像およびビデオモデルをトレーニングしています。

Google Cloudでは、Thinking Machines LabがGB300 NVL72で前世代のGPUと比較してトレーニングおよびサービング速度が2倍向上し、フロンティアモデルの研究と強化学習ワークフローを加速しています。

Nebiusは、AIクラウド上でNVIDIA BlackwellおよびBlackwell Ultraインフラストラクチャを実行し、Higgsfieldがモデルトレーニング時間を30%削減できるようにし、現在2,200万ユーザーにサービスを提供し、毎日600万以上のAIコンテンツを生成するプラットフォームを支えています。

MLPerf Training 6.0の結果とその背後にある最適化の詳細については、テクニカルブログをご覧ください。