2026-06-16站内改写3 分鐘閱讀更新: 2026-06-16

最快、最大、最強：NVIDIA Blackwell 橫掃 MLPerf Training 6.0

NVIDIA Blackwell 平台在 MLPerf Training 6.0 的所有基準測試中均取得最快訓練時間，並展示了跨 8192 個 GPU 的大規模訓練能力，同時強調了其平台的可靠性。

來源NVIDIA Blog作者: Shruti Koparkar

每一個突破性的 AI 模型都始於訓練過程。訓練任務運行的基礎設施決定了團隊迭代的速度、可構建的模型規模以及任務完成的可靠性。隨着模型在規模、複雜性和智能度上的不斷增長，對訓練基礎設施的要求也在提高。

在 MLPerf Training 6.0——這一系列嚴格、經過同行評審的 AI 訓練性能行業基準測試的最新版本中，NVIDIA Blackwell 平台在所有類別中均處於領先地位，展現了：每個基準測試的最快訓練時間；使用 NVIDIA Blackwell NVL72 系統跨 8192 個 GPU 的最大規模訓練；以及唯一在所有七個基準測試中都有提交的平台。

NVIDIA 通過極致協同設計，將性能、規模和可靠性整合到一個單一平台中，使 AI 模型構建者能夠更快地推出前沿模型，降低訓練成本並儘早產生收入。

性能：每個基準測試的最快訓練時間

MLPerf Training 6.0 新增了兩個混合專家（MoE）預訓練任務：DeepSeek-V3 671B 和 GPT-OSS-20B，反映了 MoE 架構日益增長的重要性。NVIDIA 平台是唯一在所有基準測試中都有提交的平台，並在全部七個測試中實現了最快的訓練時間。

本次，NVIDIA 在 GB200 NVL72 和 GB300 NVL72 機架級系統上均提交了結果。在每個機架級系統中，第五代 NVIDIA NVLink 交換機以高帶寬連接所有 72 個 GPU，形成統一的計算和內存池，使其作為一個巨大的 GPU 運行。大規模 MoE 訓練面臨與 MoE 推理相同的全對全通信挑戰——令牌必須跨 GPU 路由以到達正確的專家子網絡——而 NVLink 的帶寬優勢使其在規模上能夠快速高效地運行。

NVIDIA 還展示了 NVFP4 訓練方法，該方法在滿足嚴格精度要求的同時提高了性能，適用於大型和小規模預訓練以及微調任務。NVIDIA 繼續推動不同模型架構的低精度訓練創新，最近使用 NVFP4 預訓練了龐大的 5500 億參數 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能提升高達 1.6 倍：在本輪中，相同規模下 GB300 NVL72 的訓練速度比 GB200 NVL72 快 1.6 倍。關鍵 Blackwell Ultra 功能，如更高的計算密度（藉助 NVFP4）、更大的內存容量和更高的功率上限，使 GPU 能夠維持峯值性能，推動了這一改進。

規模：MLPerf Training 中最大的 Blackwell 集羣

為支持大規模分佈式訓練，NVIDIA 提供兩種互補的擴展網絡平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——為數據中心提供靈活性，以構建針對其基礎設施優化的大規模集羣。

在 DeepSeek-V3 671B（套件中最大的 MoE 模型）上，NVIDIA 使用 GB200 NVL72 系統將提交擴展到 8192 個 GPU，這是迄今為止 MLPerf Training 中最大的基於 Blackwell 的提交。

NVIDIA 還在 Llama 3.1 405B（套件中最大的密集 LLM 之一）上使用 5120 個 GPU 的 GB200 NVL72 系統提交了結果。

本輪結果也反映了 NVIDIA 與其合作伙伴在系統架構、網絡和軟件方面的深度協同工程：

微軟 Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴展到 8192 個 GPU，並在 7.07 分鐘內達到參考質量標準，是該基準測試的最快訓練時間。
CoreWeave 在 DeepSeek-V3 671B 上實現了最快訓練時間，在 8192 個 GPU 規模下使用 GB300 NVL72 系統（連接 Spectrum-X Ethernet 網絡），在 2.02 分鐘內達到質量標準。

大規模可靠性：為生產環境而構建

在生產訓練環境中，訓練任務可能跨越數週或數月，涉及數十萬個 GPU。在此規模下，有效訓練吞吐量取決於系統性能和使其隨時間可重現的彈性。

MLPerf Training v6.0 的結果證明了 NVIDIA 平台的性能。在彈性方面，NVIDIA 平台從兩個維度進行設計：

更少中斷：NVIDIA GPU 在設計上避免故障發生。在 GPU 到達數據中心之前，NVIDIA 通過 30 多個製造測試階段進行篩選，以儘早發現潛在故障。部署後，可靠性、可用性和可服務性引擎監控幾乎整個芯片，自愈功能自動繞過檢測到的故障，而不會中斷工作負載。在網絡層面，Spectrum-X Ethernet 在毫秒內繞過故障鏈路，保持結構健康而不中斷任務。
更快恢復：NVIDIA Resiliency Extension（NVRx）通過故障檢測、恢復和集羣健康監控等功能，最小化故障發生時的損失。它自動檢測並管理性能不佳的節點，防止其拖慢整個集羣。當節點發生中斷時，系統從最近的檢查點（訓練狀態的保存快照）恢復，而不是重新啓動整個任務。

基於 NVIDIA 的前沿 AI

NVIDIA 生態系統合作伙伴也廣泛參與了本輪測試，來自 19 個組織的提交令人矚目，包括 ASUSTeK、微軟 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中許多合作伙伴正在 NVIDIA 基礎設施上運行一些要求最高的 AI 訓練工作負載。

CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統（配備 Dell PowerEdge 服務器）中，承載了多個此類工作負載。Cohere 在 GB200 NVL72 上為其 North 代理 AI 平台實現了 3 倍的訓練加速。Midjourney 在 Blackwell 集羣上訓練了其 v8 圖像生成模型，現正在 CoreWeave 上擴展大量 Blackwell Ultra GPU，以訓練即將推出的圖像和視頻模型。

在 Google Cloud 上，Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 實現了 2 倍的訓練和服務速度提升，加速了前沿模型研究和強化學習工作流。

Nebius 在其 AI 雲上運行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施，使 Higgsfield 將模型訓練時間減少了 30%，支持了現在擁有 2200 萬用户、每天生成超過 600 萬條 AI 內容的平台。

有關 MLPerf Training 6.0 結果及背後優化的更多技術細節，請閲讀技術博客。