最快、最大、最強:NVIDIA Blackwell 橫掃 MLPerf Training 6.0
NVIDIA Blackwell 平臺在 MLPerf Training 6.0 的所有基準測試中均取得最快訓練時間,並展示了跨 8192 個 GPU 的大規模訓練能力,同時強調了其平臺的可靠性。
每一個突破性的 AI 模型都始於訓練過程。訓練任務執行的基礎設施決定了團隊迭代的速度、可構建的模型規模以及任務完成的可靠性。隨著模型在規模、複雜性和智慧度上的不斷增長,對訓練基礎設施的要求也在提高。
在 MLPerf Training 6.0——這一系列嚴格、經過同行評審的 AI 訓練效能行業基準測試的最新版本中,NVIDIA Blackwell 平臺在所有類別中均處於領先地位,展現了:每個基準測試的最快訓練時間;使用 NVIDIA Blackwell NVL72 系統跨 8192 個 GPU 的最大規模訓練;以及唯一在所有七個基準測試中都有提交的平臺。
NVIDIA 透過極致協同設計,將效能、規模和可靠性整合到一個單一平臺中,使 AI 模型構建者能夠更快地推出前沿模型,降低訓練成本並儘早產生收入。
效能:每個基準測試的最快訓練時間
MLPerf Training 6.0 新增了兩個混合專家(MoE)預訓練任務:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架構日益增長的重要性。NVIDIA 平臺是唯一在所有基準測試中都有提交的平臺,並在全部七個測試中實現了最快的訓練時間。
本次,NVIDIA 在 GB200 NVL72 和 GB300 NVL72 機架級系統上均提交了結果。在每個機架級系統中,第五代 NVIDIA NVLink 交換機以高頻寬連線所有 72 個 GPU,形成統一的計算和記憶體池,使其作為一個巨大的 GPU 執行。大規模 MoE 訓練面臨與 MoE 推理相同的全對全通訊挑戰——令牌必須跨 GPU 路由以到達正確的專家子網路——而 NVLink 的頻寬優勢使其在規模上能夠快速高效地執行。
NVIDIA 還展示了 NVFP4 訓練方法,該方法在滿足嚴格精度要求的同時提高了效能,適用於大型和小規模預訓練以及微調任務。NVIDIA 繼續推動不同模型架構的低精度訓練創新,最近使用 NVFP4 預訓練了龐大的 5500 億引數 NVIDIA Nemotron 3 Ultra 模型。
NVIDIA GB300 NVL72 比 GB200 NVL72 效能提升高達 1.6 倍:在本輪中,相同規模下 GB300 NVL72 的訓練速度比 GB200 NVL72 快 1.6 倍。關鍵 Blackwell Ultra 功能,如更高的計算密度(藉助 NVFP4)、更大的記憶體容量和更高的功率上限,使 GPU 能夠維持峰值效能,推動了這一改進。
規模:MLPerf Training 中最大的 Blackwell 叢集
為支援大規模分散式訓練,NVIDIA 提供兩種互補的擴充套件網路平臺——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——為資料中心提供靈活性,以構建針對其基礎設施最佳化的大規模叢集。
在 DeepSeek-V3 671B(套件中最大的 MoE 模型)上,NVIDIA 使用 GB200 NVL72 系統將提交擴充套件到 8192 個 GPU,這是迄今為止 MLPerf Training 中最大的基於 Blackwell 的提交。
NVIDIA 還在 Llama 3.1 405B(套件中最大的密集 LLM 之一)上使用 5120 個 GPU 的 GB200 NVL72 系統提交了結果。
本輪結果也反映了 NVIDIA 與其合作伙伴在系統架構、網路和軟體方面的深度協同工程:
- 微軟 Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴充套件到 8192 個 GPU,並在 7.07 分鐘內達到參考質量標準,是該基準測試的最快訓練時間。
- CoreWeave 在 DeepSeek-V3 671B 上實現了最快訓練時間,在 8192 個 GPU 規模下使用 GB300 NVL72 系統(連線 Spectrum-X Ethernet 網路),在 2.02 分鐘內達到質量標準。
大規模可靠性:為生產環境而構建
在生產訓練環境中,訓練任務可能跨越數週或數月,涉及數十萬個 GPU。在此規模下,有效訓練吞吐量取決於系統效能和使其隨時間可重現的彈性。
MLPerf Training v6.0 的結果證明了 NVIDIA 平臺的效能。在彈性方面,NVIDIA 平臺從兩個維度進行設計:
- 更少中斷:NVIDIA GPU 在設計上避免故障發生。在 GPU 到達資料中心之前,NVIDIA 透過 30 多個製造測試階段進行篩選,以儘早發現潛在故障。部署後,可靠性、可用性和可服務性引擎監控幾乎整個晶片,自愈功能自動繞過檢測到的故障,而不會中斷工作負載。在網路層面,Spectrum-X Ethernet 在毫秒內繞過故障鏈路,保持結構健康而不中斷任務。
- 更快恢復:NVIDIA Resiliency Extension(NVRx)透過故障檢測、恢復和叢集健康監控等功能,最小化故障發生時的損失。它自動檢測並管理效能不佳的節點,防止其拖慢整個叢集。當節點發生中斷時,系統從最近的檢查點(訓練狀態的儲存快照)恢復,而不是重新啟動整個任務。
基於 NVIDIA 的前沿 AI
NVIDIA 生態系統合作伙伴也廣泛參與了本輪測試,來自 19 個組織的提交令人矚目,包括 ASUSTeK、微軟 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中許多合作伙伴正在 NVIDIA 基礎設施上執行一些要求最高的 AI 訓練工作負載。
CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統(配備 Dell PowerEdge 伺服器)中,承載了多個此類工作負載。Cohere 在 GB200 NVL72 上為其 North 代理 AI 平臺實現了 3 倍的訓練加速。Midjourney 在 Blackwell 叢集上訓練了其 v8 影像生成模型,現正在 CoreWeave 上擴充套件大量 Blackwell Ultra GPU,以訓練即將推出的影像和影片模型。
在 Google Cloud 上,Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 實現了 2 倍的訓練和服務速度提升,加速了前沿模型研究和強化學習工作流。
Nebius 在其 AI 雲上執行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施,使 Higgsfield 將模型訓練時間減少了 30%,支援了現在擁有 2200 萬使用者、每天生成超過 600 萬條 AI 內容的平臺。
有關 MLPerf Training 6.0 結果及背後最佳化的更多技術細節,請閱讀技術部落格。