AI News HubLIVE
サイト内リライト4 分で読了

H100 vs GB200 NVL72 トレーニングベンチマーク – 電力、TCO、信頼性分析、ソフトウェアの経時改善

本記事では、H100とGB200 NVL72のトレーニングベンチマークを詳細に分析し、モデル浮動小数点演算利用率(MFU)、総所有コスト(TCO)、100万トークンあたりのコスト、エネルギー消費、信頼性を扱う。H100は12ヶ月間のソフトウェア最適化のみで最大57%のスループット向上を達成。一方、GB200 NVL72は潜在的な性能優位性を持つが、信頼性課題に直面し、大規模トレーニング実行は未完了である。GPT-3 175BやLlama 3 405Bなどの具体的なモデルのベンチマーク結果を提示し、Nvidiaへの3つの提言(ベンチマーク透明性の向上、ネイティブPyTorchへの拡張、GB200診断ツールの改善)を行う。

ソースSemiAnalysis著者: Dylan Patel

フロンティアモデルのトレーニングはGPUとAIシステムを限界まで押し上げ、コスト、効率、電力、TCOあたりの性能、信頼性が効果的なトレーニングの議論の中心となっています。H100とGB200 NVL72の比較は、Nvidiaが信じさせようとしているほど単純ではありません。

本レポートでは、まず2,000以上のH100 GPUにわたるベンチマーク実行の結果を提示し、モデル浮動小数点演算利用率(MFU)、総所有コスト(TCO)、100万トークンあたりのトレーニングコストを分析します。また、エネルギー使用についても議論し、トレーニングされた各トークンに消費されるユーティリティジュールを調査し、米国平均家庭の年間エネルギー使用量と比較することで、電力効率を社会的文脈で再構成します。さらに、GPUクラスターを128 H100から2048 H100にスケーリングし、Nvidiaソフトウェアの異なるバージョン間での分析結果も示します。

その後、GB200 NVL72のベンチマーク結果をLlama4 400B MoEおよびDeepSeek 670B MoEで分析し、H100の以前の結果と比較します。GB200 NVL72のドルあたりの性能優位性が、信頼性問題を考慮した後も維持されるかどうかを議論します。信頼性の低さによるダウンタイムと失われたエンジニアリング時間は、当社のTCOあたり性能計算で捉える主要な要因の1つです。現在、GB200 NVL72では大規模なトレーニング実行はまだ行われておらず、ソフトウェアが成熟し、信頼性の課題が解決される途上にあります。これは、H100およびH200、ならびにGoogle TPUのみが今日フロンティアスケールのトレーニングを完了するために実際に使用されている唯一のGPUであることを意味します。現時点では、最先端のフロンティアラボやCSPでさえ、GB200 NVL72でメガトレーニング実行をまだ実施できていません。

とはいえ、新しいアーキテクチャは常に、エコシステムがソフトウェアを成熟させて効果的に活用するための時間を必要とします。GB200 NVL72の立ち上げは前世代よりやや遅いですが、大幅ではなく、年末までにはGB200 NVL72のソフトウェアがかなり改善されると確信しています。フロンティアモデルのアーキテクチャがより大規模なスケールアップワールドサイズを念頭に置いて共同設計されていることと相まって、年末までにGB200 NVL72を使用することで大幅な効率向上が期待できます。信頼性面では、Nvidiaがパートナーとさらに緊密に連携して迅速に解決すべき重大な課題が引き続き存在しますが、エコシステムはこれらの信頼性課題に取り組むために急速にリソースを結集するでしょう。

本記事では、詳細なベンチマーク手法と分析方法も提供します。ベンチマークにはNvidia DGXCベンチマークチームのDGX Cloudベンチマークスクリプトを使用し、Nvidia内部のH100 EOSクラスター(8×400 Gbit/s InfiniBandネットワーク構成)で実行しました。これらの結果は、Neocloud環境が顧客とのサービスレベル契約(SLA)を定義する際に比較できる公式リファレンス番号として機能します。クラウドプロバイダーはベンチマークをNvidiaに提出し、これらのEOSリファレンス番号を達成できれば、Nvidia Exemplar Cloudの指定を受けることができます。当社のClusterMAXv2は、サービス品質を評価する際にプロバイダーのExemplar Cloudステータスを重視する予定です。

コスト分析では、H100サーバーの価格は約19万ドルに低下し、ストレージ、ネットワークなどを含む超大手クラウド事業者向け総初期資本支出はサーバーあたり約25万ドルです。GB200 NVL72では、ラックスケールサーバー単体で310万ドル、ネットワーク、ストレージなどを含む総額はラックあたり約390万ドルです。すべてのバイヤータイプにおいて、GB200 NVL72のGPUあたり総資本コストはH100の約1.6〜1.7倍です。運用コストでは、GB200 NVL72のGPUあたりOPEXはH100よりもそれほど高くありませんが、GB200チップの消費電力が1200W(H100は700W)であるため、GPUあたりの総電力消費が高くなることが主な差です。資本支出と運用支出を合わせた総所有コスト(TCO)では、GB200 NVL72のTCOはH100の約1.6倍であり、H100と比較してTCOあたり性能で優位に立つには、少なくとも1.6倍の速度が必要です。

その後、Nvidiaへの3つの提言を示します。第一に、ベンチマークの範囲を拡大し透明性を高めること。超大手クラウド事業者とNvidiaクラウドパートナー(NCP)の両方でベンチマークを実施し、データを公開することを推奨します。第二に、ベンチマークの焦点をネイティブPyTorch(TorchTitanなど)に拡大し、NeMoの機能を速やかにアップストリームすること。第三に、GB200 NVL72のバックプレーン診断およびデバッグツールの開発を加速し、ODM/OEMパートナーに対してより厳格な受け入れテストを課すことです。

具体的なベンチマーク結果として、GPT-3 175Bの128 H100クラスターでのトレーニング性能を示します。BF16 MFUは34%から54%(12ヶ月で57%向上)、FP8 MFUは29.5%から39.5%(34%向上)に改善しました。コスト面では、FP8での100万トークンあたりのトレーニングコストは72セントから54.2セントに低下し、元の300Bトークンのトレーニング総コストは21.8万ドルから16.2万ドルに改善しました。電力消費では、2024年12月のソフトウェアでFP8トークンあたり2.46ジュール、BF16で3.63ジュールを消費します。平均的な米国家庭の年間エネルギー消費量と同じ予算で、158億のFP8トークンをトレーニングできます。300Bトークンのトレーニングには、FP8で19世帯、BF16で28世帯の年間エネルギー消費に相当します。

弱スケーリングでは、Llama 3 405Bを576〜2304 H100でトレーニングした場合、BF16 MFUは約54%、FP8 MFUは約43%で安定しています。15Tトークンの事前トレーニングコストはBF16で100万トークンあたり1.95ドル、合計2910万ドルです。トークンあたりのエネルギー消費は約8.8ジュールで、15Tトークンのトレーニングには3,400世帯分の年間エネルギーが必要です。Llama 3 70Bでは、64〜2048 H100でFP8 MFUが38.1%から35.5%に低下し、BF16 MFUの変化は小さくなっています。

最後に、GB200 NVL72のトレーニング性能に関する詳細な分析を予告し、DeepSeek 670B MoEとLlama 4 400B MoEのベンチマーク、現在の診断ツールの不足と信頼性問題について議論します。これらは、Nvidia、CSP、Neocloud、およびフロンティアラボのエンドユーザーが年末までにGB200 NVL72でフロンティアモデルを成功裏にコスト効率よくトレーニングするために解決しなければならない課題です。