2026-06-19站内改写1 分で読了更新: 2026-06-19

因果帰属によるプルーニングが大規模言語モデルの推論性能を維持

研究者らは、因果帰属プルーニング（CAP）を提案する。これは、推論タスクにおける因果的影響を測定することでLLMの重要な注意ヘッドを特定し、訓練不要で細粒度の重みプルーニングを導く手法である。ARC-Challengeにおいて、CAPは20%の疎密度でWandaを最大61%相対的に上回り、中程度の疎密度で一貫して優れた性能を示す。

ソースarXiv Computational Linguistics著者: Amogh Sheth, Biruk Assefa, Yi Wen Huang, Andrew Lin, Yuhao Ge

因果帰属プルーニング（Causal Attribution Pruning, CAP）は、大規模言語モデル（LLM）の多段階推論性能を維持しながらモデルを圧縮するために提案された、訓練不要の新しい手法です。CAPは、各注意ヘッドの推論タスクに対する因果的影響を測定することで、重要なヘッドを特定し、そのヘッドレベルのスコアを利用して細粒度の重みプルーニングを実行します。具体的には、少数の推論問題からなるキャリブレーションセットで順伝播中に注意ヘッドを一時的にマスクし、その際の性能低下を推定します。得られた因果スコアは、対応する射影行列の重みレベル重要度に変換されます。この介入的な測定により、CAPは各ヘッドの機能的貢献を直接捉え、従来の重みの大きさや活性化に基づく基準よりも優れた性能を示します。

研究チームは、Llama-3-8B-InstructおよびMistral-7B-Instructモデルを用いて、GSM8K、StrategyQA、ARC-Challengeの3つのベンチマークで、10%、20%、50%の疎密度でCAPを評価しました。中程度の疎密度（10-20%）では、CAPはほとんどのモデル・ベンチマーク構成でベースラインのWandaを上回りました。特に、Llama-3のARC-Challengeにおいて20%疎密度で61%の相対的正確率向上を達成し、顕著な改善を示しました。これらの結果は、相関に基づくプルーニング基準よりも、注意ヘッドレベルの因果帰属が下流の推論性能をよりよく維持できることを示唆しています。

しかし、CAPの利点は高疎密度では減少します。50%疎密度では、プルーニング決定が粗いMLP帰属に依存するため、手法の効果が限定的になります。この論文はICLR 2026 LLM推論ワークショップに採択され、arXiv（arXiv:2606.19350）で公開されています。CAPは、推論能力を保持しつつLLMを圧縮するための効果的かつ新しいアプローチを提供します。