AI News HubLIVE
站内改写3 分钟阅读

最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf Training 6.0

NVIDIA Blackwell 平台在 MLPerf Training 6.0 的所有基准测试中均取得最快训练时间,并展示了跨 8192 个 GPU 的大规模训练能力,同时强调了其平台的可靠性。

来源NVIDIA Blog作者: Shruti Koparkar

每一个突破性的 AI 模型都始于训练过程。训练任务运行的基础设施决定了团队迭代的速度、可构建的模型规模以及任务完成的可靠性。随着模型在规模、复杂性和智能度上的不断增长,对训练基础设施的要求也在提高。

在 MLPerf Training 6.0——这一系列严格、经过同行评审的 AI 训练性能行业基准测试的最新版本中,NVIDIA Blackwell 平台在所有类别中均处于领先地位,展现了:每个基准测试的最快训练时间;使用 NVIDIA Blackwell NVL72 系统跨 8192 个 GPU 的最大规模训练;以及唯一在所有七个基准测试中都有提交的平台。

NVIDIA 通过极致协同设计,将性能、规模和可靠性整合到一个单一平台中,使 AI 模型构建者能够更快地推出前沿模型,降低训练成本并尽早产生收入。

性能:每个基准测试的最快训练时间

MLPerf Training 6.0 新增了两个混合专家(MoE)预训练任务:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架构日益增长的重要性。NVIDIA 平台是唯一在所有基准测试中都有提交的平台,并在全部七个测试中实现了最快的训练时间。

本次,NVIDIA 在 GB200 NVL72 和 GB300 NVL72 机架级系统上均提交了结果。在每个机架级系统中,第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 个 GPU,形成统一的计算和内存池,使其作为一个巨大的 GPU 运行。大规模 MoE 训练面临与 MoE 推理相同的全对全通信挑战——令牌必须跨 GPU 路由以到达正确的专家子网络——而 NVLink 的带宽优势使其在规模上能够快速高效地运行。

NVIDIA 还展示了 NVFP4 训练方法,该方法在满足严格精度要求的同时提高了性能,适用于大型和小规模预训练以及微调任务。NVIDIA 继续推动不同模型架构的低精度训练创新,最近使用 NVFP4 预训练了庞大的 5500 亿参数 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能提升高达 1.6 倍:在本轮中,相同规模下 GB300 NVL72 的训练速度比 GB200 NVL72 快 1.6 倍。关键 Blackwell Ultra 功能,如更高的计算密度(借助 NVFP4)、更大的内存容量和更高的功率上限,使 GPU 能够维持峰值性能,推动了这一改进。

规模:MLPerf Training 中最大的 Blackwell 集群

为支持大规模分布式训练,NVIDIA 提供两种互补的扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet——为数据中心提供灵活性,以构建针对其基础设施优化的大规模集群。

在 DeepSeek-V3 671B(套件中最大的 MoE 模型)上,NVIDIA 使用 GB200 NVL72 系统将提交扩展到 8192 个 GPU,这是迄今为止 MLPerf Training 中最大的基于 Blackwell 的提交。

NVIDIA 还在 Llama 3.1 405B(套件中最大的密集 LLM 之一)上使用 5120 个 GPU 的 GB200 NVL72 系统提交了结果。

本轮结果也反映了 NVIDIA 与其合作伙伴在系统架构、网络和软件方面的深度协同工程:

  • 微软 Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展到 8192 个 GPU,并在 7.07 分钟内达到参考质量标准,是该基准测试的最快训练时间。
  • CoreWeave 在 DeepSeek-V3 671B 上实现了最快训练时间,在 8192 个 GPU 规模下使用 GB300 NVL72 系统(连接 Spectrum-X Ethernet 网络),在 2.02 分钟内达到质量标准。

大规模可靠性:为生产环境而构建

在生产训练环境中,训练任务可能跨越数周或数月,涉及数十万个 GPU。在此规模下,有效训练吞吐量取决于系统性能和使其随时间可重现的弹性。

MLPerf Training v6.0 的结果证明了 NVIDIA 平台的性能。在弹性方面,NVIDIA 平台从两个维度进行设计:

  • 更少中断:NVIDIA GPU 在设计上避免故障发生。在 GPU 到达数据中心之前,NVIDIA 通过 30 多个制造测试阶段进行筛选,以尽早发现潜在故障。部署后,可靠性、可用性和可服务性引擎监控几乎整个芯片,自愈功能自动绕过检测到的故障,而不会中断工作负载。在网络层面,Spectrum-X Ethernet 在毫秒内绕过故障链路,保持结构健康而不中断任务。
  • 更快恢复:NVIDIA Resiliency Extension(NVRx)通过故障检测、恢复和集群健康监控等功能,最小化故障发生时的损失。它自动检测并管理性能不佳的节点,防止其拖慢整个集群。当节点发生中断时,系统从最近的检查点(训练状态的保存快照)恢复,而不是重新启动整个任务。

基于 NVIDIA 的前沿 AI

NVIDIA 生态系统合作伙伴也广泛参与了本轮测试,来自 19 个组织的提交令人瞩目,包括 ASUSTeK、微软 Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。其中许多合作伙伴正在 NVIDIA 基础设施上运行一些要求最高的 AI 训练工作负载。

CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统(配备 Dell PowerEdge 服务器)中,承载了多个此类工作负载。Cohere 在 GB200 NVL72 上为其 North 代理 AI 平台实现了 3 倍的训练加速。Midjourney 在 Blackwell 集群上训练了其 v8 图像生成模型,现正在 CoreWeave 上扩展大量 Blackwell Ultra GPU,以训练即将推出的图像和视频模型。

在 Google Cloud 上,Thinking Machines Lab 在 GB300 NVL72 上相比前代 GPU 实现了 2 倍的训练和服务速度提升,加速了前沿模型研究和强化学习工作流。

Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施,使 Higgsfield 将模型训练时间减少了 30%,支持了现在拥有 2200 万用户、每天生成超过 600 万条 AI 内容的平台。

有关 MLPerf Training 6.0 结果及背后优化的更多技术细节,请阅读技术博客。