AI News HubLIVE
站内改写

GPUテレメトリー異常:A100のアイドル時消費電力146W(ホワイトペーパー)

ホワイトペーパーにより、NVIDIA A100 GPUが使用率0%を報告しながら最大146.66ワットを消費することが明らかになり、GPUテレメトリーの重大な盲点が露呈した。著者は新しいエネルギー効率ベンチマーク(CEI)と、そのような「ゴースト」異常を検出するオープンソース最適化ツールを提案している。

記事インテリジェンス

エンジニア上級

要点

  • 報告されたGPU使用率が0%でも実際の消費電力は146Wを超え、隠れたエネルギー浪費を引き起こす。
  • NVIDIAのMIGプロファイリング制限により、マルチテナントクラウド環境で観測可能性のギャップが生じる。
  • Compute Energy Intensity(CEI)ベンチマークは、プロバイダ間の比較のためのFLOPs/ジュールを標準化する。
  • オープンソースのGPUエネルギー最適化ツールはGHOSTおよびDESYNC異常を検出し、実用的な最適化を提供する。

重要な理由

このニュースが重要なのは、報告されたGPU使用率が0%でも実際の消費電力は146Wを超え、隠れたエネルギー浪費を引き起こすためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

標準的なGPUテレメトリツール(nvidia-smi、Prometheus NVMLエクスポーターなど)は、低い使用率は低消費電力と有用な作業がないことを意味すると仮定しています。しかし、この仮定は誤りです。NVIDIA A100 SXM GPUでの制御されたハードウェアテストにおいて、使用率0%を報告しながら146.66ワットを消費するGPUを測定し、これが11分以上継続しました。これを「GHOST異常」と呼びます——物理的に不可能なテレメトリであり、クラスタの過剰プロビジョニング、エネルギー浪費、誤ったスケーリング判断につながります。

さらに、NVIDIAの公式文書は、共有GPUリソース(MIGパーティション)のプロファイリングがサポートされていないことを確認しており、マルチテナントクラウド環境ではテレメトリの非同期(DESYNC)が静かに潜む可能性があります。この問題に対処するため、GHOSTおよびDESYNC異常をリアルタイムで検出するオープンソースのGPUエネルギー最適化ツールを開発し、Compute Energy Intensity(CEI)ベンチマーク——FLOPs/ジュールの標準化された測定方法——を提案します。

テスト方法は、RunPod(NVIDIA A100 SXM 40GBおよびH100 SXM)で実施された35回の検証テストに基づき、すべて個人負担で行われました。テストはアイドルベースライン、ゴースト電力検出、サンプリングレート感度、負荷ランプなどをカバーしています。主な発見:A100の真のアイドル消費電力は66~68Wですが、ゴースト電力は146.66Wに達し、原因不明の約79.66Wの差があります。500GPUのフリートでは、この隠れた浪費は電力と冷却だけで1日あたり約150ドルになります。

CEIベンチマークは次のように定義されます:CEI = 総FLOPs / 総エネルギー(ジュール)。A100 SXMの基準値は5.68B FLOPs/J(良好レベル)です。最適化ツールは、リアルタイム異常検出、CEIベンチマーク、Kubernetes/Run:ai統合、Grafana+Prometheus観測可能性スタックを提供します。ストリームオーバーラップとダブルバッファリング技術により、アイドルエネルギー消費を約40%削減し、CEIを25%向上させることができます。

現在、500~1000GPUでのシステム検証のため、GPUクラウドパートナーシップ、研究協力、観測可能性の専門家を求めています。すべてのテストは個人負担で実施され、スケールアップの準備が整っています。