2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

透過因果歸因剪枝保持大語言模型的推理效能

研究人員提出了因果歸因剪枝（CAP），這是一種無需訓練的方法，透過測量注意力頭對推理任務的因果影響來識別關鍵注意力頭，從而指導細粒度權重剪枝。在ARC-Challenge上，CAP在20%稀疏度下相比Wanda取得了高達61%的相對準確率提升，並在中等稀疏度下持續表現更好。

來源arXiv Computational Linguistics作者: Amogh Sheth, Biruk Assefa, Yi Wen Huang, Andrew Lin, Yuhao Ge

因果歸因剪枝（Causal Attribution Pruning, CAP）是一種新穎的、無需額外訓練的大語言模型（LLM）剪枝方法。它透過測量每個注意力頭在推理任務中的因果貢獻，精確識別哪些注意力頭對多步推理最為關鍵，然後利用這些頭級別的得分來引導細粒度的權重剪枝。與傳統的基於權重幅度或啟用統計的剪枝技術不同，CAP採用直接的因果乾預：在一個小型推理問題的校準集上進行前向傳播時，暫時遮蔽特定的注意力頭，並評估由此導致的效能下降程度。這些因果得分被轉換為對應投影矩陣的權重級重要性值，從而實現了對模型結構的精準最佳化。

研究團隊在三個廣泛使用的推理基準（GSM8K、StrategyQA和ARC-Challenge）上，使用Llama-3-8B-Instruct和Mistral-7B-Instruct兩種模型，在10%、20%和50%的稀疏度下對CAP進行了全面評估。實驗結果表明，在中等稀疏度（10-20%）下，CAP在大多數模型與基準的組合中均優於基線方法Wanda。其中，最顯著的改進出現在Llama-3模型在ARC-Challenge資料集上的表現：在20%稀疏度下，CAP相較Wanda實現了高達61%的相對準確率提升。這一結果強有力地證明，注意力頭級別的因果歸因比基於相關性的剪枝標準更能保留模型的下游推理效能。

然而，CAP的優勢在高稀疏度下有所減弱。當稀疏度達到50%時，CAP的效果受到限制，主要原因是其剪枝決策依賴於較為粗粒度的MLP（多層感知器）歸因，難以捕捉更細粒度的功能貢獻。該論文已被ICLR 2026 LLM推理研討會接收，目前可在arXiv上獲取（arXiv:2606.19350）。總體而言，CAP為在保持推理能力的同時壓縮LLM提供了一種有效且新穎的途徑。