タイミングトリックでLLMトレーニングのエネルギーを最大14%削減
オランダのトゥウェンテ大学の研究者たちは、GPUカーネルごとにクロック周波数を調整することで、速度をほとんど犠牲にせずに大規模言語モデルのトレーニングエネルギーを最大14%削減できることを示しました。
2023年、OpenAIがGPT-4のトレーニングに消費した電力は約50ギガワット時で、これはアメリカの5000世帯の年間消費量に相当します。それ以来、最先端LLMのトレーニングに使われる計算資源は増加の一途をたどっていますが、直接の電力使用量は把握しにくくなっています。オランダのトゥウェンテ大学の研究チームは、GPUのクロック周波数を巧妙に調整することで、速度をほとんど落とさずにトレーニングエネルギーを最大14%削減できることを示しました。博士課程学生のJeffrey Spaan氏が先月のComputing Frontiers会議で結果を発表しました。
この手法は動的電圧周波数スケーリング(DVFS)と呼ばれる技術に基づいています。最新のGPUには計算コア用とメモリ用の2つのクロックがあります。コアが計算に忙しいときはメモリクロックを下げ、コアがデータ待ちのときはコアクロックを下げます。DVFS自体は1990年代から知られていますが、LLMトレーニングへの応用はこれまでうまくいっていませんでした。
従来の試みではトレーニングの反復(フォワードパスとバックプロパゲーション)ごとに周波数を調整していましたが、Spaan氏のチームはカーネルと呼ばれるより細かい単位で調整しました。1層の計算を約40のカーネルに分割し、カーネルごとに最適な周波数を設定することで大きなエネルギー削減を達成しました。
実験ではNvidia RTX 3080 Tiを使ってGPT-3-XL(13億パラメータ)の1層をトレーニングし、トレーニング時間の増加をわずか0.6%に抑えながら14%のエネルギー削減を実現しました。ただし、これは周波数切り替え時間を考慮しない理想値であり、実際の効果はGPUの性能に依存します。新しいBlackwell GPUでは切り替えが高速で、最大の削減が期待できます。
現在、チームは特定のワークロードに対して自動的に最適な周波数調整を行うツールを開発中です。Spaan氏は「私たちは性能を犠牲にせずにエネルギーを節約する最適化を行っています。現実世界では性能が何より重要です」と述べています。