2026-06-16站内改写3 分鐘閱讀更新: 2026-06-16

最快、最大、最強：NVIDIA Blackwell 橫掃 MLPerf Training 6.0

NVIDIA Blackwell 平臺在 MLPerf Training 6.0 的所有基準測試中均取得最快訓練時間，並展示了跨 8192 個 GPU 的大規模訓練能力，同時強調了其平臺的可靠性。

來源NVIDIA Blog作者: Shruti Koparkar

每一個突破性的 AI 模型都始於訓練過程。訓練任務執行的基礎設施決定了團隊迭代的速度、可構建的模型規模以及任務完成的可靠性。隨著模型在規模、複雜性和智慧度上的不斷增長，對訓練基礎設施的要求也在提高。

在 MLPerf Training 6.0——這一系列嚴格、經過同行評審的 AI 訓練效能行業基準測試的最新版本中，NVIDIA Blackwell 平臺在所有類別中均處於領先地位，展現了：每個基準測試的最快訓練時間；使用 NVIDIA Blackwell NVL72 系統跨 8192 個 GPU 的最大規模訓練；以及唯一在所有七個基準測試中都有提交的平臺。

NVIDIA 透過極致協同設計，將效能、規模和可靠性整合到一個單一平臺中，使 AI 模型構建者能夠更快地推出前沿模型，降低訓練成本並儘早產生收入。

效能：每個基準測試的最快訓練時間

MLPerf Training 6.0 新增了兩個混合專家（MoE）預訓練任務：DeepSeek-V3 671B 和 GPT-OSS-20B，反映了 MoE 架構日益增長的重要性。NVIDIA 平臺是唯一在所有基準測試中都有提交的平臺，並在全部七個測試中實現了最快的訓練時間。

本次，NVIDIA 在 GB200 NVL72 和 GB300 NVL72 機架級系統上均提交了結果。在每個機架級系統中，第五代 NVIDIA NVLink 交換機以高頻寬連線所有 72 個 GPU，形成統一的計算和記憶體池，使其作為一個巨大的 GPU 執行。大規模 MoE 訓練面臨與 MoE 推理相同的全對全通訊挑戰——令牌必須跨 GPU 路由以到達正確的專家子網路——而 NVLink 的頻寬優勢使其在規模上能夠快速高效地執行。

NVIDIA 還展示了 NVFP4 訓練方法，該方法在滿足嚴格精度要求的同時提高了效能，適用於大型和小規模預訓練以及微調任務。NVIDIA 繼續推動不同模型架構的低精度訓練創新，最近使用 NVFP4 預訓練了龐大的 5500 億引數 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 效能提升高達 1.6 倍：在本輪中，相同規模下 GB300 NVL72 的訓練速度比 GB200 NVL72 快 1.6 倍。關鍵 Blackwell Ultra 功能，如更高的計算密度（藉助 NVFP4）、更大的記憶體容量和更高的功率上限，使 GPU 能夠維持峰值效能，推動了這一改進。

規模：MLPerf Training 中最大的 Blackwell 叢集

為支援大規模分散式訓練，NVIDIA 提供兩種互補的擴充套件網路平臺——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——為資料中心提供靈活性，以構建針對其基礎設施最佳化的大規模叢集。

在 DeepSeek-V3 671B（套件中最大的 MoE 模型）上，NVIDIA 使用 GB200 NVL72 系統將提交擴充套件到 8192 個 GPU，這是迄今為止 MLPerf Training 中最大的基於 Blackwell 的提交。

NVIDIA 還在 Llama 3.1 405B（套件中最大的密集 LLM 之一）上使用 5120 個 GPU 的 GB200 NVL72 系統提交了結果。

本輪結果也反映了 NVIDIA 與其合作伙伴在系統架構、網路和軟體方面的深度協同工程：

微軟 Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴充套件到 8192 個 GPU，並在 7.07 分鐘內達到參考質量標準，是該基準測試的最快訓練時間。
CoreWeave 在 DeepSeek-V3 671B 上實現了最快訓練時間，在 8192 個 GPU 規模下使用 GB300 NVL72 系統（連線 Spectrum-X Ethernet 網路），在 2.02 分鐘內達到質量標準。

大規模可靠性：為生產環境而構建

在生產訓練環境中，訓練任務可能跨越數週或數月，涉及數十萬個 GPU。在此規模下，有效訓練吞吐量取決於系統效能和使其隨時間可重現的彈性。

MLPerf Training v6.0 的結果證明了 NVIDIA 平臺的效能。在彈性方面，NVIDIA 平臺從兩個維度進行設計：

更少中斷：NVIDIA GPU 在設計上避免故障發生。在 GPU 到達資料中心之前，NVIDIA 透過 30 多個製造測試階段進行篩選，以儘早發現潛在故障。部署後，可靠性、可用性和可服務性引擎監控幾乎整個晶片，自愈功能自動繞過檢測到的故障，而不會中斷工作負載。在網路層面，Spectrum-X Ethernet 在毫秒內繞過故障鏈路，保持結構健康而不中斷任務。
更快恢復：NVIDIA Resiliency Extension（NVRx）透過故障檢測、恢復和叢集健康監控等功能，最小化故障發生時的損失。它自動檢測並管理效能不佳的節點，防止其拖慢整個叢集。當節點發生中斷時，系統從最近的檢查點（訓練狀態的儲存快照）恢復，而不是重新啟動整個任務。

基於 NVIDIA 的前沿 AI

NVIDIA 生態系統合作伙伴也廣泛參與了本輪測試，來自 19 個組織的提交令人矚目，包括 ASUSTeK、微軟 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中許多合作伙伴正在 NVIDIA 基礎設施上執行一些要求最高的 AI 訓練工作負載。

CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統（配備 Dell PowerEdge 伺服器）中，承載了多個此類工作負載。Cohere 在 GB200 NVL72 上為其 North 代理 AI 平臺實現了 3 倍的訓練加速。Midjourney 在 Blackwell 叢集上訓練了其 v8 影像生成模型，現正在 CoreWeave 上擴充套件大量 Blackwell Ultra GPU，以訓練即將推出的影像和影片模型。

在 Google Cloud 上，Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 實現了 2 倍的訓練和服務速度提升，加速了前沿模型研究和強化學習工作流。

Nebius 在其 AI 雲上執行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施，使 Higgsfield 將模型訓練時間減少了 30%，支援了現在擁有 2200 萬使用者、每天生成超過 600 萬條 AI 內容的平臺。

有關 MLPerf Training 6.0 結果及背後最佳化的更多技術細節，請閱讀技術部落格。