2025-08-20 12:56 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

H100与GB200 NVL72训练基准测试：功耗、TCO与可靠性分析，及软件随时间的改进

本文深入分析了H100与GB200 NVL72在训练前沿模型时的基准表现，涵盖模型浮点利用率（MFU）、总拥有成本（TCO）、每百万token成本、能耗及可靠性。研究发现，H100在12个月内通过软件优化实现了高达57%的吞吐量提升；而GB200 NVL72虽然在性能上具有优势，但面临可靠性挑战和大规模训练尚未完成的现状。文章还提供了具体模型（如GPT-3 175B、Llama 3 405B）的详细基准数据，并给出对Nvidia的三点建议：增加基准测试透明度、扩展至原生PyTorch、改进GB200诊断工具。

来源SemiAnalysis作者: Dylan Patel

前沿模型训练已将GPU和AI系统推向极限，使得成本、效率、功耗、每TCO性能及可靠性成为有效训练讨论的核心。H100与GB200 NVL72的对比并非如Nvidia所述那样简单。

本文首先展示了在超过2000个H100 GPU上进行的基准测试结果，分析了模型浮点利用率（MFU）、总拥有成本（TCO）以及每百万token训练成本。我们还讨论了能耗问题，考察了每个token训练所消耗的焦耳能量，并将其与美国平均家庭年用电量进行比较，以社会背景重新定义能效。此外，我们展示了将GPU集群从128个H100扩展到2048个H100时，以及在不同Nvidia软件版本下的分析结果。

随后，本文分析了GB200 NVL72在Llama 4 400B MoE和DeepSeek 670B MoE上的基准测试结果，并将其与H100的早期数据进行了对比。我们探讨了GB200 NVL72的每美元性能优势在考虑可靠性问题后是否依然存在。可靠性差导致的停机时间和工程时间损失是我们每TCO性能计算中的关键因素。目前，GB200 NVL72尚未进行大规模训练运行，软件仍在成熟中，可靠性挑战有待解决。这意味着H100、H200以及Google TPU仍然是当前成功完成前沿规模训练的唯一GPU。即使是最先进的前沿实验室和云服务提供商目前也无法在GB200 NVL72上开展大规模训练运行。

尽管如此，每个新架构自然需要时间来让生态系统成熟并有效利用该架构。GB200 NVL72的加速略慢于前几代，但幅度不大。我们相信，到今年年底，GB200 NVL72的软件将有显著改善。结合前沿模型架构与更大规模扩展域的设计，我们预计到年底使用GB200 NVL72将带来显著的效率提升。在可靠性方面，Nvidia需要与合作伙伴更紧密合作以快速解决问题，但我们认为生态系统将迅速集中资源应对这些挑战。

本文还提供了详细的基准测试和分析方法。基准测试使用Nvidia DGXC基准测试团队的DGX Cloud基准测试脚本，在Nvidia内部H100 EOS集群上执行，配置了8×400 Gbit/s InfiniBand网络。这些结果作为官方参考数字，用于Neocloud环境与客户之间定义服务水平协议（SLA）。云服务商可以向Nvidia提交基准测试，如果能够达到EOS参考数字，则可获得Nvidia Exemplar Cloud称号。我们的ClusterMAXv2将重点考虑服务商的Exemplar Cloud状态。

在成本分析方面，H100服务器的价格已降至约19万美元，包括存储、网络等，超大规模云服务商的总前期资本支出约为每服务器25万美元。GB200 NVL72机架级服务器本身售价为310万美元，包括所有配套设备后约为每机架390万美元。对于所有买家类型，GB200 NVL72的每GPU总资本成本约为H100的1.6至1.7倍。运营成本方面，GB200 NVL72的每GPU运营支出略高于H100，主要由于更高的功耗（每芯片1200W对700W）。结合资本支出和运营支出，GB200 NVL72的总拥有成本约为H100的1.6倍，因此需要至少1.6倍的性能优势才能获得每TCO性能优势。

本文随后给出了对Nvidia的三点建议：第一，扩大基准测试范围并提高透明度，包括超大规模云服务商和Nvidia云合作伙伴（NCP），并公开数据；第二，将基准测试重点扩展到原生PyTorch（如TorchTitan），并将NeMo中的特性及时上游；第三，加速GB200 NVL72背板诊断和调试工具的开发，并实施更严格的验收测试。

在具体的基准结果部分，我们展示了GPT-3 175B在128个H100集群上不同时间点的训练表现。BF16 MFU从34%提升至54%（12个月改善57%），FP8 MFU从29.5%提升至39.5%（改善34%）。成本方面，FP8每百万token训练成本从72美分降至54.2美分，训练原始300B token的总成本从21.8万美元降至16.2万美元。功耗方面，2024年12月FP8每token消耗2.46焦耳，BF16消耗3.63焦耳。一个美国家庭的年用电量可训练158亿个FP8 token，训练300B token需要19个家庭年用电量（FP8）或28个家庭（BF16）。

弱扩展方面，Llama 3 405B在576至2304个H100上训练时，BF16 MFU稳定在54%左右，FP8 MFU约43%。预训练15T token的BF16成本为每百万token 1.95美元，总计2910万美元。每token能耗约8.8焦耳，训练15T token需3400个家庭年用电量。Llama 3 70B在64至2048个H100上，FP8 MFU从38.1%降至35.5%，BF16 MFU变化较小。

最后，文章预告了后续对GB200 NVL72训练性能的深入分析，包括DeepSeek 670B MoE和Llama 4 400B MoE的基准测试，以及当前诊断工具不足和可靠性问题。这些是Nvidia、云服务商和前沿实验室必须在年底前解决的问题，以成功且经济高效地在GB200 NVL72上训练前沿模型。