H100與GB200 NVL72訓練基準測試:功耗、TCO與可靠性分析,及軟體隨時間的改進
本文深入分析了H100與GB200 NVL72在訓練前沿模型時的基準表現,涵蓋模型浮點利用率(MFU)、總擁有成本(TCO)、每百萬token成本、能耗及可靠性。研究發現,H100在12個月內透過軟體最佳化實現了高達57%的吞吐量提升;而GB200 NVL72雖然在效能上具有優勢,但面臨可靠性挑戰和大規模訓練尚未完成的現狀。文章還提供了具體模型(如GPT-3 175B、Llama 3 405B)的詳細基準資料,並給出對Nvidia的三點建議:增加基準測試透明度、擴充套件至原生PyTorch、改進GB200診斷工具。
前沿模型訓練已將GPU和AI系統推向極限,使得成本、效率、功耗、每TCO效能及可靠性成為有效訓練討論的核心。H100與GB200 NVL72的對比並非如Nvidia所述那樣簡單。
本文首先展示了在超過2000個H100 GPU上進行的基準測試結果,分析了模型浮點利用率(MFU)、總擁有成本(TCO)以及每百萬token訓練成本。我們還討論了能耗問題,考察了每個token訓練所消耗的焦耳能量,並將其與美國平均家庭年用電量進行比較,以社會背景重新定義能效。此外,我們展示了將GPU叢集從128個H100擴充套件到2048個H100時,以及在不同Nvidia軟體版本下的分析結果。
隨後,本文分析了GB200 NVL72在Llama 4 400B MoE和DeepSeek 670B MoE上的基準測試結果,並將其與H100的早期資料進行了對比。我們探討了GB200 NVL72的每美元效能優勢在考慮可靠性問題後是否依然存在。可靠性差導致的停機時間和工程時間損失是我們每TCO效能計算中的關鍵因素。目前,GB200 NVL72尚未進行大規模訓練執行,軟體仍在成熟中,可靠性挑戰有待解決。這意味著H100、H200以及Google TPU仍然是當前成功完成前沿規模訓練的唯一GPU。即使是最先進的前沿實驗室和雲服務提供商目前也無法在GB200 NVL72上開展大規模訓練執行。
儘管如此,每個新架構自然需要時間來讓生態系統成熟並有效利用該架構。GB200 NVL72的加速略慢於前幾代,但幅度不大。我們相信,到今年年底,GB200 NVL72的軟體將有顯著改善。結合前沿模型架構與更大規模擴充套件域的設計,我們預計到年底使用GB200 NVL72將帶來顯著的效率提升。在可靠性方面,Nvidia需要與合作伙伴更緊密合作以快速解決問題,但我們認為生態系統將迅速集中資源應對這些挑戰。
本文還提供了詳細的基準測試和分析方法。基準測試使用Nvidia DGXC基準測試團隊的DGX Cloud基準測試指令碼,在Nvidia內部H100 EOS叢集上執行,配置了8×400 Gbit/s InfiniBand網路。這些結果作為官方參考數字,用於Neocloud環境與客戶之間定義服務水平協議(SLA)。雲服務商可以向Nvidia提交基準測試,如果能夠達到EOS參考數字,則可獲得Nvidia Exemplar Cloud稱號。我們的ClusterMAXv2將重點考慮服務商的Exemplar Cloud狀態。
在成本分析方面,H100伺服器的價格已降至約19萬美元,包括儲存、網路等,超大規模雲服務商的總前期資本支出約為每伺服器25萬美元。GB200 NVL72機架級伺服器本身售價為310萬美元,包括所有配套裝置後約為每機架390萬美元。對於所有買家型別,GB200 NVL72的每GPU總資本成本約為H100的1.6至1.7倍。運營成本方面,GB200 NVL72的每GPU運營支出略高於H100,主要由於更高的功耗(每晶片1200W對700W)。結合資本支出和運營支出,GB200 NVL72的總擁有成本約為H100的1.6倍,因此需要至少1.6倍的效能優勢才能獲得每TCO效能優勢。
本文隨後給出了對Nvidia的三點建議:第一,擴大基準測試範圍並提高透明度,包括超大規模雲服務商和Nvidia雲合作伙伴(NCP),並公開資料;第二,將基準測試重點擴充套件到原生PyTorch(如TorchTitan),並將NeMo中的特性及時上游;第三,加速GB200 NVL72背板診斷和除錯工具的開發,並實施更嚴格的驗收測試。
在具體的基準結果部分,我們展示了GPT-3 175B在128個H100叢集上不同時間點的訓練表現。BF16 MFU從34%提升至54%(12個月改善57%),FP8 MFU從29.5%提升至39.5%(改善34%)。成本方面,FP8每百萬token訓練成本從72美分降至54.2美分,訓練原始300B token的總成本從21.8萬美元降至16.2萬美元。功耗方面,2024年12月FP8每token消耗2.46焦耳,BF16消耗3.63焦耳。一個美國家庭的年用電量可訓練158億個FP8 token,訓練300B token需要19個家庭年用電量(FP8)或28個家庭(BF16)。
弱擴充套件方面,Llama 3 405B在576至2304個H100上訓練時,BF16 MFU穩定在54%左右,FP8 MFU約43%。預訓練15T token的BF16成本為每百萬token 1.95美元,總計2910萬美元。每token能耗約8.8焦耳,訓練15T token需3400個家庭年用電量。Llama 3 70B在64至2048個H100上,FP8 MFU從38.1%降至35.5%,BF16 MFU變化較小。
最後,文章預告了後續對GB200 NVL72訓練效能的深入分析,包括DeepSeek 670B MoE和Llama 4 400B MoE的基準測試,以及當前診斷工具不足和可靠性問題。這些是Nvidia、雲服務商和前沿實驗室必須在年底前解決的問題,以成功且經濟高效地在GB200 NVL72上訓練前沿模型。