よりスパースで高速、軽量なTransformer言語モデル
Sakana AIはNVIDIAと協業し、非構造化スパース性を活用してLLMの推論と学習を効率化する新しいスパースデータ構造とGPUカーネルを発表しました。本研究成果はICML 2026で発表されます。ReLU活性化関数とL1正則化により、LLMは95%を超えるスパース性を達成し、下流性能への影響はわずかです。独自のTwELLフォーマットと複数行列積を融合するカスタムCUDAカーネルにより、H100 GPU上でバッチ推論と学習が20%以上高速化し、エネルギーとメモリ使用量も削減されます。
記事インテリジェンス
要点
- Sakana AIとNVIDIAの協業により、タイル化行列積カーネル向けのスパースパッキングフォーマットTwELL(Tile-wise ELLPACK)を導入。
- 複数の行列積を融合するカスタムCUDAカーネルを開発し、スループットを最大化、TwELLを圧縮してストレージコストを削減。
- L1正則化によりReLUベースLLMで95%超のスパース性を誘導、性能低下は無視でき、実際の高速化に寄与。
- H100 GPU上でバッチ推論と学習が20%以上高速化、エネルギー消費とメモリ要件も削減。
重要な理由
このニュースが重要なのは、Sakana AIとNVIDIAの協業により、タイル化行列積カーネル向けのスパースパッキングフォーマットTwELL(Tile-wise ELLPACK)を導入ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
現代の大規模言語モデル(LLM)は強力ですが、その運用コストは莫大です。特にフィードフォワード層が計算量とパラメータの大部分を占めます。各トークンに対して、隠れ層の活性化のごく一部だけが重要で、残りはほぼゼロになります。ReLU活性化関数とL1正則化を組み合わせることで、このスパース性は95%を超え、下流性能への影響はほとんどありません。このスパース性を活用してLLMを高速化するには、ハードウェアの課題があります。最新のNVIDIA GPUは密行列積に特化しており、従来の非構造化スパース向けアルゴリズムは大きなオーバーヘッドを招きます。
Sakana AIとNVIDIAの共同研究では、この矛盾を解決するために、新しいスパースパッキングフォーマットTwELL(Tile-wise ELLPACK)を導入しました。これはタイル化行列積カーネルにシームレスに統合でき、実行パイプラインを妨げず、メモリオーバーヘッドもありません。さらに、複数の行列積を融合するカスタムCUDAカーネルを開発し、スループットを最大化し、TwELLを圧縮してストレージコストを削減します。
数十億パラメータ規模のスパースLLMを用いた実験では、軽度のL1正則化により高いスパース性が誘導され、下流性能はほぼ維持されました。新しいカーネルにより、H100 GPU上でバッチ推論と学習が20%以上高速化し、エネルギー消費とメモリ要件も低減されました。本研究成果はICML 2026で発表予定です。