通过因果归因剪枝保持大语言模型的推理性能
研究人员提出了因果归因剪枝(CAP),这是一种无需训练的方法,通过测量注意力头对推理任务的因果影响来识别关键注意力头,从而指导细粒度权重剪枝。在ARC-Challenge上,CAP在20%稀疏度下相比Wanda取得了高达61%的相对准确率提升,并在中等稀疏度下持续表现更好。
因果归因剪枝(Causal Attribution Pruning, CAP)是一种新颖的、无需额外训练的大语言模型(LLM)剪枝方法。它通过测量每个注意力头在推理任务中的因果贡献,精确识别哪些注意力头对多步推理最为关键,然后利用这些头级别的得分来引导细粒度的权重剪枝。与传统的基于权重幅度或激活统计的剪枝技术不同,CAP采用直接的因果干预:在一个小型推理问题的校准集上进行前向传播时,暂时遮蔽特定的注意力头,并评估由此导致的性能下降程度。这些因果得分被转换为对应投影矩阵的权重级重要性值,从而实现了对模型结构的精准优化。
研究团队在三个广泛使用的推理基准(GSM8K、StrategyQA和ARC-Challenge)上,使用Llama-3-8B-Instruct和Mistral-7B-Instruct两种模型,在10%、20%和50%的稀疏度下对CAP进行了全面评估。实验结果表明,在中等稀疏度(10-20%)下,CAP在大多数模型与基准的组合中均优于基线方法Wanda。其中,最显著的改进出现在Llama-3模型在ARC-Challenge数据集上的表现:在20%稀疏度下,CAP相较Wanda实现了高达61%的相对准确率提升。这一结果强有力地证明,注意力头级别的因果归因比基于相关性的剪枝标准更能保留模型的下游推理性能。
然而,CAP的优势在高稀疏度下有所减弱。当稀疏度达到50%时,CAP的效果受到限制,主要原因是其剪枝决策依赖于较为粗粒度的MLP(多层感知器)归因,难以捕捉更细粒度的功能贡献。该论文已被ICLR 2026 LLM推理研讨会接收,目前可在arXiv上获取(arXiv:2606.19350)。总体而言,CAP为在保持推理能力的同时压缩LLM提供了一种有效且新颖的途径。