2025-08-20 12:56 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

H100與GB200 NVL72訓練基準測試：功耗、TCO與可靠性分析，及軟體隨時間的改進

本文深入分析了H100與GB200 NVL72在訓練前沿模型時的基準表現，涵蓋模型浮點利用率（MFU）、總擁有成本（TCO）、每百萬token成本、能耗及可靠性。研究發現，H100在12個月內透過軟體最佳化實現了高達57%的吞吐量提升；而GB200 NVL72雖然在效能上具有優勢，但面臨可靠性挑戰和大規模訓練尚未完成的現狀。文章還提供了具體模型（如GPT-3 175B、Llama 3 405B）的詳細基準資料，並給出對Nvidia的三點建議：增加基準測試透明度、擴充套件至原生PyTorch、改進GB200診斷工具。

來源SemiAnalysis作者: Dylan Patel

前沿模型訓練已將GPU和AI系統推向極限，使得成本、效率、功耗、每TCO效能及可靠性成為有效訓練討論的核心。H100與GB200 NVL72的對比並非如Nvidia所述那樣簡單。

本文首先展示了在超過2000個H100 GPU上進行的基準測試結果，分析了模型浮點利用率（MFU）、總擁有成本（TCO）以及每百萬token訓練成本。我們還討論了能耗問題，考察了每個token訓練所消耗的焦耳能量，並將其與美國平均家庭年用電量進行比較，以社會背景重新定義能效。此外，我們展示了將GPU叢集從128個H100擴充套件到2048個H100時，以及在不同Nvidia軟體版本下的分析結果。

隨後，本文分析了GB200 NVL72在Llama 4 400B MoE和DeepSeek 670B MoE上的基準測試結果，並將其與H100的早期資料進行了對比。我們探討了GB200 NVL72的每美元效能優勢在考慮可靠性問題後是否依然存在。可靠性差導致的停機時間和工程時間損失是我們每TCO效能計算中的關鍵因素。目前，GB200 NVL72尚未進行大規模訓練執行，軟體仍在成熟中，可靠性挑戰有待解決。這意味著H100、H200以及Google TPU仍然是當前成功完成前沿規模訓練的唯一GPU。即使是最先進的前沿實驗室和雲服務提供商目前也無法在GB200 NVL72上開展大規模訓練執行。

儘管如此，每個新架構自然需要時間來讓生態系統成熟並有效利用該架構。GB200 NVL72的加速略慢於前幾代，但幅度不大。我們相信，到今年年底，GB200 NVL72的軟體將有顯著改善。結合前沿模型架構與更大規模擴充套件域的設計，我們預計到年底使用GB200 NVL72將帶來顯著的效率提升。在可靠性方面，Nvidia需要與合作伙伴更緊密合作以快速解決問題，但我們認為生態系統將迅速集中資源應對這些挑戰。

本文還提供了詳細的基準測試和分析方法。基準測試使用Nvidia DGXC基準測試團隊的DGX Cloud基準測試指令碼，在Nvidia內部H100 EOS叢集上執行，配置了8×400 Gbit/s InfiniBand網路。這些結果作為官方參考數字，用於Neocloud環境與客戶之間定義服務水平協議（SLA）。雲服務商可以向Nvidia提交基準測試，如果能夠達到EOS參考數字，則可獲得Nvidia Exemplar Cloud稱號。我們的ClusterMAXv2將重點考慮服務商的Exemplar Cloud狀態。

在成本分析方面，H100伺服器的價格已降至約19萬美元，包括儲存、網路等，超大規模雲服務商的總前期資本支出約為每伺服器25萬美元。GB200 NVL72機架級伺服器本身售價為310萬美元，包括所有配套裝置後約為每機架390萬美元。對於所有買家型別，GB200 NVL72的每GPU總資本成本約為H100的1.6至1.7倍。運營成本方面，GB200 NVL72的每GPU運營支出略高於H100，主要由於更高的功耗（每晶片1200W對700W）。結合資本支出和運營支出，GB200 NVL72的總擁有成本約為H100的1.6倍，因此需要至少1.6倍的效能優勢才能獲得每TCO效能優勢。

本文隨後給出了對Nvidia的三點建議：第一，擴大基準測試範圍並提高透明度，包括超大規模雲服務商和Nvidia雲合作伙伴（NCP），並公開資料；第二，將基準測試重點擴充套件到原生PyTorch（如TorchTitan），並將NeMo中的特性及時上游；第三，加速GB200 NVL72背板診斷和除錯工具的開發，並實施更嚴格的驗收測試。

在具體的基準結果部分，我們展示了GPT-3 175B在128個H100叢集上不同時間點的訓練表現。BF16 MFU從34%提升至54%（12個月改善57%），FP8 MFU從29.5%提升至39.5%（改善34%）。成本方面，FP8每百萬token訓練成本從72美分降至54.2美分，訓練原始300B token的總成本從21.8萬美元降至16.2萬美元。功耗方面，2024年12月FP8每token消耗2.46焦耳，BF16消耗3.63焦耳。一個美國家庭的年用電量可訓練158億個FP8 token，訓練300B token需要19個家庭年用電量（FP8）或28個家庭（BF16）。

弱擴充套件方面，Llama 3 405B在576至2304個H100上訓練時，BF16 MFU穩定在54%左右，FP8 MFU約43%。預訓練15T token的BF16成本為每百萬token 1.95美元，總計2910萬美元。每token能耗約8.8焦耳，訓練15T token需3400個家庭年用電量。Llama 3 70B在64至2048個H100上，FP8 MFU從38.1%降至35.5%，BF16 MFU變化較小。

最後，文章預告了後續對GB200 NVL72訓練效能的深入分析，包括DeepSeek 670B MoE和Llama 4 400B MoE的基準測試，以及當前診斷工具不足和可靠性問題。這些是Nvidia、雲服務商和前沿實驗室必須在年底前解決的問題，以成功且經濟高效地在GB200 NVL72上訓練前沿模型。