AI News HubLIVE
站内改写3 分鐘閱讀

最快、最大、最強:NVIDIA Blackwell 橫掃 MLPerf Training 6.0

NVIDIA Blackwell 平台在 MLPerf Training 6.0 的所有基準測試中均取得最快訓練時間,並展示了跨 8192 個 GPU 的大規模訓練能力,同時強調了其平台的可靠性。

來源NVIDIA Blog作者: Shruti Koparkar

每一個突破性的 AI 模型都始於訓練過程。訓練任務運行的基礎設施決定了團隊迭代的速度、可構建的模型規模以及任務完成的可靠性。隨着模型在規模、複雜性和智能度上的不斷增長,對訓練基礎設施的要求也在提高。

在 MLPerf Training 6.0——這一系列嚴格、經過同行評審的 AI 訓練性能行業基準測試的最新版本中,NVIDIA Blackwell 平台在所有類別中均處於領先地位,展現了:每個基準測試的最快訓練時間;使用 NVIDIA Blackwell NVL72 系統跨 8192 個 GPU 的最大規模訓練;以及唯一在所有七個基準測試中都有提交的平台。

NVIDIA 通過極致協同設計,將性能、規模和可靠性整合到一個單一平台中,使 AI 模型構建者能夠更快地推出前沿模型,降低訓練成本並儘早產生收入。

性能:每個基準測試的最快訓練時間

MLPerf Training 6.0 新增了兩個混合專家(MoE)預訓練任務:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架構日益增長的重要性。NVIDIA 平台是唯一在所有基準測試中都有提交的平台,並在全部七個測試中實現了最快的訓練時間。

本次,NVIDIA 在 GB200 NVL72 和 GB300 NVL72 機架級系統上均提交了結果。在每個機架級系統中,第五代 NVIDIA NVLink 交換機以高帶寬連接所有 72 個 GPU,形成統一的計算和內存池,使其作為一個巨大的 GPU 運行。大規模 MoE 訓練面臨與 MoE 推理相同的全對全通信挑戰——令牌必須跨 GPU 路由以到達正確的專家子網絡——而 NVLink 的帶寬優勢使其在規模上能夠快速高效地運行。

NVIDIA 還展示了 NVFP4 訓練方法,該方法在滿足嚴格精度要求的同時提高了性能,適用於大型和小規模預訓練以及微調任務。NVIDIA 繼續推動不同模型架構的低精度訓練創新,最近使用 NVFP4 預訓練了龐大的 5500 億參數 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能提升高達 1.6 倍:在本輪中,相同規模下 GB300 NVL72 的訓練速度比 GB200 NVL72 快 1.6 倍。關鍵 Blackwell Ultra 功能,如更高的計算密度(藉助 NVFP4)、更大的內存容量和更高的功率上限,使 GPU 能夠維持峯值性能,推動了這一改進。

規模:MLPerf Training 中最大的 Blackwell 集羣

為支持大規模分佈式訓練,NVIDIA 提供兩種互補的擴展網絡平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——為數據中心提供靈活性,以構建針對其基礎設施優化的大規模集羣。

在 DeepSeek-V3 671B(套件中最大的 MoE 模型)上,NVIDIA 使用 GB200 NVL72 系統將提交擴展到 8192 個 GPU,這是迄今為止 MLPerf Training 中最大的基於 Blackwell 的提交。

NVIDIA 還在 Llama 3.1 405B(套件中最大的密集 LLM 之一)上使用 5120 個 GPU 的 GB200 NVL72 系統提交了結果。

本輪結果也反映了 NVIDIA 與其合作伙伴在系統架構、網絡和軟件方面的深度協同工程:

  • 微軟 Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴展到 8192 個 GPU,並在 7.07 分鐘內達到參考質量標準,是該基準測試的最快訓練時間。
  • CoreWeave 在 DeepSeek-V3 671B 上實現了最快訓練時間,在 8192 個 GPU 規模下使用 GB300 NVL72 系統(連接 Spectrum-X Ethernet 網絡),在 2.02 分鐘內達到質量標準。

大規模可靠性:為生產環境而構建

在生產訓練環境中,訓練任務可能跨越數週或數月,涉及數十萬個 GPU。在此規模下,有效訓練吞吐量取決於系統性能和使其隨時間可重現的彈性。

MLPerf Training v6.0 的結果證明了 NVIDIA 平台的性能。在彈性方面,NVIDIA 平台從兩個維度進行設計:

  • 更少中斷:NVIDIA GPU 在設計上避免故障發生。在 GPU 到達數據中心之前,NVIDIA 通過 30 多個製造測試階段進行篩選,以儘早發現潛在故障。部署後,可靠性、可用性和可服務性引擎監控幾乎整個芯片,自愈功能自動繞過檢測到的故障,而不會中斷工作負載。在網絡層面,Spectrum-X Ethernet 在毫秒內繞過故障鏈路,保持結構健康而不中斷任務。
  • 更快恢復:NVIDIA Resiliency Extension(NVRx)通過故障檢測、恢復和集羣健康監控等功能,最小化故障發生時的損失。它自動檢測並管理性能不佳的節點,防止其拖慢整個集羣。當節點發生中斷時,系統從最近的檢查點(訓練狀態的保存快照)恢復,而不是重新啓動整個任務。

基於 NVIDIA 的前沿 AI

NVIDIA 生態系統合作伙伴也廣泛參與了本輪測試,來自 19 個組織的提交令人矚目,包括 ASUSTeK、微軟 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中許多合作伙伴正在 NVIDIA 基礎設施上運行一些要求最高的 AI 訓練工作負載。

CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統(配備 Dell PowerEdge 服務器)中,承載了多個此類工作負載。Cohere 在 GB200 NVL72 上為其 North 代理 AI 平台實現了 3 倍的訓練加速。Midjourney 在 Blackwell 集羣上訓練了其 v8 圖像生成模型,現正在 CoreWeave 上擴展大量 Blackwell Ultra GPU,以訓練即將推出的圖像和視頻模型。

在 Google Cloud 上,Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 實現了 2 倍的訓練和服務速度提升,加速了前沿模型研究和強化學習工作流。

Nebius 在其 AI 雲上運行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施,使 Higgsfield 將模型訓練時間減少了 30%,支持了現在擁有 2200 萬用户、每天生成超過 600 萬條 AI 內容的平台。

有關 MLPerf Training 6.0 結果及背後優化的更多技術細節,請閲讀技術博客。