归因引导与覆盖最大化的结构化MoE剪枝方法
本文提出一种面向混合专家模型的结构化剪枝框架,通过将剪枝比率分配转化为通道分数覆盖最大化问题,并利用基于归因的近似方法高效求解。实验表明,在50%或25%结构化剪枝结合4位量化条件下,该方法在DeepSeek和Qwen MoE模型上保持了模型精度,并在Qwen3-30B-A3B上实现5.27倍内存压缩,超越现有基准。
来源arXiv Machine Learning作者: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao
来自arXiv的一篇新论文提出了一种针对混合专家(MoE)模型的结构化剪枝方法,旨在解决部署这类模型时面临的高内存占用和推理开销问题。该研究由Yifu Ding等七位作者完成,已被提交至ICML 2026。混合专家模型通过稀疏激活机制实现了计算效率的扩展,但庞大的参数量仍然导致实际部署成本居高不下。现有压缩方法通常以专家为单位进行操作,例如直接移除整个专家或基于粗粒度重要性评分对专家进行排序。然而,这种专家级别的决策过于粗糙,难以捕捉细粒度冗余,从而导致剪枝预算分配不当,压缩效果受限。研究团队通过观察发现,MoE专家内部的信息高度集中于一小部分通道,即便是被认为重要的专家也包含大量冗余。基于这一洞察,他们设计了一个专门针对MoE模型的结构化剪枝框架。该方法将剪枝比率分配问题重新表述为通道分数覆盖最大化问题,并采用基于归因的近似方法高效求解。实验在DeepSeek和Qwen系列MoE模型上进行,结果显示:当结合4位量化时,该方法能在50%或25%的结构化剪枝下保持模型准确率。特别地,在Qwen3-30B-A3B模型上,该方法将内存占用减少了5.27倍,并在多个基准测试中持续优于当前最先进的基线方法。这一工作为MoE模型的高效部署提供了新思路,通过精细化的通道级剪枝策略,在压缩率与模型性能之间取得了更好的平衡。论文全文可在arXiv上获取,并附有代码和实验复现信息。