2026-06-16站内改写3 分钟阅读更新: 2026-06-16

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf Training 6.0

NVIDIA Blackwell 平台在 MLPerf Training 6.0 的所有基准测试中均取得最快训练时间，并展示了跨 8192 个 GPU 的大规模训练能力，同时强调了其平台的可靠性。

来源NVIDIA Blog作者: Shruti Koparkar

每一个突破性的 AI 模型都始于训练过程。训练任务运行的基础设施决定了团队迭代的速度、可构建的模型规模以及任务完成的可靠性。随着模型在规模、复杂性和智能度上的不断增长，对训练基础设施的要求也在提高。

在 MLPerf Training 6.0——这一系列严格、经过同行评审的 AI 训练性能行业基准测试的最新版本中，NVIDIA Blackwell 平台在所有类别中均处于领先地位，展现了：每个基准测试的最快训练时间；使用 NVIDIA Blackwell NVL72 系统跨 8192 个 GPU 的最大规模训练；以及唯一在所有七个基准测试中都有提交的平台。

NVIDIA 通过极致协同设计，将性能、规模和可靠性整合到一个单一平台中，使 AI 模型构建者能够更快地推出前沿模型，降低训练成本并尽早产生收入。

性能：每个基准测试的最快训练时间

MLPerf Training 6.0 新增了两个混合专家（MoE）预训练任务：DeepSeek-V3 671B 和 GPT-OSS-20B，反映了 MoE 架构日益增长的重要性。NVIDIA 平台是唯一在所有基准测试中都有提交的平台，并在全部七个测试中实现了最快的训练时间。

本次，NVIDIA 在 GB200 NVL72 和 GB300 NVL72 机架级系统上均提交了结果。在每个机架级系统中，第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 个 GPU，形成统一的计算和内存池，使其作为一个巨大的 GPU 运行。大规模 MoE 训练面临与 MoE 推理相同的全对全通信挑战——令牌必须跨 GPU 路由以到达正确的专家子网络——而 NVLink 的带宽优势使其在规模上能够快速高效地运行。

NVIDIA 还展示了 NVFP4 训练方法，该方法在满足严格精度要求的同时提高了性能，适用于大型和小规模预训练以及微调任务。NVIDIA 继续推动不同模型架构的低精度训练创新，最近使用 NVFP4 预训练了庞大的 5500 亿参数 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能提升高达 1.6 倍：在本轮中，相同规模下 GB300 NVL72 的训练速度比 GB200 NVL72 快 1.6 倍。关键 Blackwell Ultra 功能，如更高的计算密度（借助 NVFP4）、更大的内存容量和更高的功率上限，使 GPU 能够维持峰值性能，推动了这一改进。

规模：MLPerf Training 中最大的 Blackwell 集群

为支持大规模分布式训练，NVIDIA 提供两种互补的扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——为数据中心提供灵活性，以构建针对其基础设施优化的大规模集群。

在 DeepSeek-V3 671B（套件中最大的 MoE 模型）上，NVIDIA 使用 GB200 NVL72 系统将提交扩展到 8192 个 GPU，这是迄今为止 MLPerf Training 中最大的基于 Blackwell 的提交。

NVIDIA 还在 Llama 3.1 405B（套件中最大的密集 LLM 之一）上使用 5120 个 GPU 的 GB200 NVL72 系统提交了结果。

本轮结果也反映了 NVIDIA 与其合作伙伴在系统架构、网络和软件方面的深度协同工程：

微软 Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展到 8192 个 GPU，并在 7.07 分钟内达到参考质量标准，是该基准测试的最快训练时间。
CoreWeave 在 DeepSeek-V3 671B 上实现了最快训练时间，在 8192 个 GPU 规模下使用 GB300 NVL72 系统（连接 Spectrum-X Ethernet 网络），在 2.02 分钟内达到质量标准。

大规模可靠性：为生产环境而构建

在生产训练环境中，训练任务可能跨越数周或数月，涉及数十万个 GPU。在此规模下，有效训练吞吐量取决于系统性能和使其随时间可重现的弹性。

MLPerf Training v6.0 的结果证明了 NVIDIA 平台的性能。在弹性方面，NVIDIA 平台从两个维度进行设计：

更少中断：NVIDIA GPU 在设计上避免故障发生。在 GPU 到达数据中心之前，NVIDIA 通过 30 多个制造测试阶段进行筛选，以尽早发现潜在故障。部署后，可靠性、可用性和可服务性引擎监控几乎整个芯片，自愈功能自动绕过检测到的故障，而不会中断工作负载。在网络层面，Spectrum-X Ethernet 在毫秒内绕过故障链路，保持结构健康而不中断任务。
更快恢复：NVIDIA Resiliency Extension（NVRx）通过故障检测、恢复和集群健康监控等功能，最小化故障发生时的损失。它自动检测并管理性能不佳的节点，防止其拖慢整个集群。当节点发生中断时，系统从最近的检查点（训练状态的保存快照）恢复，而不是重新启动整个任务。

基于 NVIDIA 的前沿 AI

NVIDIA 生态系统合作伙伴也广泛参与了本轮测试，来自 19 个组织的提交令人瞩目，包括 ASUSTeK、微软 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中许多合作伙伴正在 NVIDIA 基础设施上运行一些要求最高的 AI 训练工作负载。

CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统（配备 Dell PowerEdge 服务器）中，承载了多个此类工作负载。Cohere 在 GB200 NVL72 上为其 North 代理 AI 平台实现了 3 倍的训练加速。Midjourney 在 Blackwell 集群上训练了其 v8 图像生成模型，现正在 CoreWeave 上扩展大量 Blackwell Ultra GPU，以训练即将推出的图像和视频模型。

在 Google Cloud 上，Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 实现了 2 倍的训练和服务速度提升，加速了前沿模型研究和强化学习工作流。

Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施，使 Higgsfield 将模型训练时间减少了 30%，支持了现在拥有 2200 万用户、每天生成超过 600 万条 AI 内容的平台。

有关 MLPerf Training 6.0 结果及背后优化的更多技术细节，请阅读技术博客。