AI News HubLIVE
站内改写3 分钟阅读

H100与GB200 NVL72训练基准测试:功耗、TCO与可靠性分析,及软件随时间的改进

本文深入分析了H100与GB200 NVL72在训练前沿模型时的基准表现,涵盖模型浮点利用率(MFU)、总拥有成本(TCO)、每百万token成本、能耗及可靠性。研究发现,H100在12个月内通过软件优化实现了高达57%的吞吐量提升;而GB200 NVL72虽然在性能上具有优势,但面临可靠性挑战和大规模训练尚未完成的现状。文章还提供了具体模型(如GPT-3 175B、Llama 3 405B)的详细基准数据,并给出对Nvidia的三点建议:增加基准测试透明度、扩展至原生PyTorch、改进GB200诊断工具。

来源SemiAnalysis作者: Dylan Patel

前沿模型训练已将GPU和AI系统推向极限,使得成本、效率、功耗、每TCO性能及可靠性成为有效训练讨论的核心。H100与GB200 NVL72的对比并非如Nvidia所述那样简单。

本文首先展示了在超过2000个H100 GPU上进行的基准测试结果,分析了模型浮点利用率(MFU)、总拥有成本(TCO)以及每百万token训练成本。我们还讨论了能耗问题,考察了每个token训练所消耗的焦耳能量,并将其与美国平均家庭年用电量进行比较,以社会背景重新定义能效。此外,我们展示了将GPU集群从128个H100扩展到2048个H100时,以及在不同Nvidia软件版本下的分析结果。

随后,本文分析了GB200 NVL72在Llama 4 400B MoE和DeepSeek 670B MoE上的基准测试结果,并将其与H100的早期数据进行了对比。我们探讨了GB200 NVL72的每美元性能优势在考虑可靠性问题后是否依然存在。可靠性差导致的停机时间和工程时间损失是我们每TCO性能计算中的关键因素。目前,GB200 NVL72尚未进行大规模训练运行,软件仍在成熟中,可靠性挑战有待解决。这意味着H100、H200以及Google TPU仍然是当前成功完成前沿规模训练的唯一GPU。即使是最先进的前沿实验室和云服务提供商目前也无法在GB200 NVL72上开展大规模训练运行。

尽管如此,每个新架构自然需要时间来让生态系统成熟并有效利用该架构。GB200 NVL72的加速略慢于前几代,但幅度不大。我们相信,到今年年底,GB200 NVL72的软件将有显著改善。结合前沿模型架构与更大规模扩展域的设计,我们预计到年底使用GB200 NVL72将带来显著的效率提升。在可靠性方面,Nvidia需要与合作伙伴更紧密合作以快速解决问题,但我们认为生态系统将迅速集中资源应对这些挑战。

本文还提供了详细的基准测试和分析方法。基准测试使用Nvidia DGXC基准测试团队的DGX Cloud基准测试脚本,在Nvidia内部H100 EOS集群上执行,配置了8×400 Gbit/s InfiniBand网络。这些结果作为官方参考数字,用于Neocloud环境与客户之间定义服务水平协议(SLA)。云服务商可以向Nvidia提交基准测试,如果能够达到EOS参考数字,则可获得Nvidia Exemplar Cloud称号。我们的ClusterMAXv2将重点考虑服务商的Exemplar Cloud状态。

在成本分析方面,H100服务器的价格已降至约19万美元,包括存储、网络等,超大规模云服务商的总前期资本支出约为每服务器25万美元。GB200 NVL72机架级服务器本身售价为310万美元,包括所有配套设备后约为每机架390万美元。对于所有买家类型,GB200 NVL72的每GPU总资本成本约为H100的1.6至1.7倍。运营成本方面,GB200 NVL72的每GPU运营支出略高于H100,主要由于更高的功耗(每芯片1200W对700W)。结合资本支出和运营支出,GB200 NVL72的总拥有成本约为H100的1.6倍,因此需要至少1.6倍的性能优势才能获得每TCO性能优势。

本文随后给出了对Nvidia的三点建议:第一,扩大基准测试范围并提高透明度,包括超大规模云服务商和Nvidia云合作伙伴(NCP),并公开数据;第二,将基准测试重点扩展到原生PyTorch(如TorchTitan),并将NeMo中的特性及时上游;第三,加速GB200 NVL72背板诊断和调试工具的开发,并实施更严格的验收测试。

在具体的基准结果部分,我们展示了GPT-3 175B在128个H100集群上不同时间点的训练表现。BF16 MFU从34%提升至54%(12个月改善57%),FP8 MFU从29.5%提升至39.5%(改善34%)。成本方面,FP8每百万token训练成本从72美分降至54.2美分,训练原始300B token的总成本从21.8万美元降至16.2万美元。功耗方面,2024年12月FP8每token消耗2.46焦耳,BF16消耗3.63焦耳。一个美国家庭的年用电量可训练158亿个FP8 token,训练300B token需要19个家庭年用电量(FP8)或28个家庭(BF16)。

弱扩展方面,Llama 3 405B在576至2304个H100上训练时,BF16 MFU稳定在54%左右,FP8 MFU约43%。预训练15T token的BF16成本为每百万token 1.95美元,总计2910万美元。每token能耗约8.8焦耳,训练15T token需3400个家庭年用电量。Llama 3 70B在64至2048个H100上,FP8 MFU从38.1%降至35.5%,BF16 MFU变化较小。

最后,文章预告了后续对GB200 NVL72训练性能的深入分析,包括DeepSeek 670B MoE和Llama 4 400B MoE的基准测试,以及当前诊断工具不足和可靠性问题。这些是Nvidia、云服务商和前沿实验室必须在年底前解决的问题,以成功且经济高效地在GB200 NVL72上训练前沿模型。