2026-06-18站内改写1 分钟阅读更新: 2026-06-18

归因引导与覆盖最大化的结构化MoE剪枝方法

本文提出一种面向混合专家模型的结构化剪枝框架，通过将剪枝比率分配转化为通道分数覆盖最大化问题，并利用基于归因的近似方法高效求解。实验表明，在50%或25%结构化剪枝结合4位量化条件下，该方法在DeepSeek和Qwen MoE模型上保持了模型精度，并在Qwen3-30B-A3B上实现5.27倍内存压缩，超越现有基准。

来源arXiv Machine Learning作者: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

来自arXiv的一篇新论文提出了一种针对混合专家（MoE）模型的结构化剪枝方法，旨在解决部署这类模型时面临的高内存占用和推理开销问题。该研究由Yifu Ding等七位作者完成，已被提交至ICML 2026。混合专家模型通过稀疏激活机制实现了计算效率的扩展，但庞大的参数量仍然导致实际部署成本居高不下。现有压缩方法通常以专家为单位进行操作，例如直接移除整个专家或基于粗粒度重要性评分对专家进行排序。然而，这种专家级别的决策过于粗糙，难以捕捉细粒度冗余，从而导致剪枝预算分配不当，压缩效果受限。研究团队通过观察发现，MoE专家内部的信息高度集中于一小部分通道，即便是被认为重要的专家也包含大量冗余。基于这一洞察，他们设计了一个专门针对MoE模型的结构化剪枝框架。该方法将剪枝比率分配问题重新表述为通道分数覆盖最大化问题，并采用基于归因的近似方法高效求解。实验在DeepSeek和Qwen系列MoE模型上进行，结果显示：当结合4位量化时，该方法能在50%或25%的结构化剪枝下保持模型准确率。特别地，在Qwen3-30B-A3B模型上，该方法将内存占用减少了5.27倍，并在多个基准测试中持续优于当前最先进的基线方法。这一工作为MoE模型的高效部署提供了新思路，通过精细化的通道级剪枝策略，在压缩率与模型性能之间取得了更好的平衡。论文全文可在arXiv上获取，并附有代码和实验复现信息。