2026-05-08站内改写

よりスパースで高速、軽量なTransformer言語モデル

Sakana AIはNVIDIAと協業し、非構造化スパース性を活用してLLMの推論と学習を効率化する新しいスパースデータ構造とGPUカーネルを発表しました。本研究成果はICML 2026で発表されます。ReLU活性化関数とL1正則化により、LLMは95%を超えるスパース性を達成し、下流性能への影響はわずかです。独自のTwELLフォーマットと複数行列積を融合するカスタムCUDAカーネルにより、H100 GPU上でバッチ推論と学習が20%以上高速化し、エネルギーとメモリ使用量も削減されます。

記事インテリジェンス

エンジニア上級

要点

Sakana AIとNVIDIAの協業により、タイル化行列積カーネル向けのスパースパッキングフォーマットTwELL（Tile-wise ELLPACK）を導入。
複数の行列積を融合するカスタムCUDAカーネルを開発し、スループットを最大化、TwELLを圧縮してストレージコストを削減。
L1正則化によりReLUベースLLMで95%超のスパース性を誘導、性能低下は無視でき、実際の高速化に寄与。
H100 GPU上でバッチ推論と学習が20%以上高速化、エネルギー消費とメモリ要件も削減。

重要な理由

このニュースが重要なのは、Sakana AIとNVIDIAの協業により、タイル化行列積カーネル向けのスパースパッキングフォーマットTwELL（Tile-wise ELLPACK）を導入ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

現代の大規模言語モデル（LLM）は強力ですが、その運用コストは莫大です。特にフィードフォワード層が計算量とパラメータの大部分を占めます。各トークンに対して、隠れ層の活性化のごく一部だけが重要で、残りはほぼゼロになります。ReLU活性化関数とL1正則化を組み合わせることで、このスパース性は95%を超え、下流性能への影響はほとんどありません。このスパース性を活用してLLMを高速化するには、ハードウェアの課題があります。最新のNVIDIA GPUは密行列積に特化しており、従来の非構造化スパース向けアルゴリズムは大きなオーバーヘッドを招きます。

Sakana AIとNVIDIAの共同研究では、この矛盾を解決するために、新しいスパースパッキングフォーマットTwELL（Tile-wise ELLPACK）を導入しました。これはタイル化行列積カーネルにシームレスに統合でき、実行パイプラインを妨げず、メモリオーバーヘッドもありません。さらに、複数の行列積を融合するカスタムCUDAカーネルを開発し、スループットを最大化し、TwELLを圧縮してストレージコストを削減します。

数十億パラメータ規模のスパースLLMを用いた実験では、軽度のL1正則化により高いスパース性が誘導され、下流性能はほぼ維持されました。新しいカーネルにより、H100 GPU上でバッチ推論と学習が20%以上高速化し、エネルギー消費とメモリ要件も低減されました。本研究成果はICML 2026で発表予定です。