2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

歸因引導與覆蓋最大化的結構化MoE剪枝方法

本文提出一種面向混合專家模型的結構化剪枝框架，通過將剪枝比率分配轉化為通道分數覆蓋最大化問題，並利用基於歸因的近似方法高效求解。實驗表明，在50%或25%結構化剪枝結合4位量化條件下，該方法在DeepSeek和Qwen MoE模型上保持了模型精度，並在Qwen3-30B-A3B上實現5.27倍內存壓縮，超越現有基準。

來源arXiv Machine Learning作者: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

來自arXiv的一篇新論文提出了一種針對混合專家（MoE）模型的結構化剪枝方法，旨在解決部署這類模型時面臨的高內存佔用和推理開銷問題。該研究由Yifu Ding等七位作者完成，已被提交至ICML 2026。混合專家模型通過稀疏激活機制實現了計算效率的擴展，但龐大的參數量仍然導致實際部署成本居高不下。現有壓縮方法通常以專家為單位進行操作，例如直接移除整個專家或基於粗粒度重要性評分對專家進行排序。然而，這種專家級別的決策過於粗糙，難以捕捉細粒度冗餘，從而導致剪枝預算分配不當，壓縮效果受限。研究團隊通過觀察發現，MoE專家內部的信息高度集中於一小部分通道，即便是被認為重要的專家也包含大量冗餘。基於這一洞察，他們設計了一個專門針對MoE模型的結構化剪枝框架。該方法將剪枝比率分配問題重新表述為通道分數覆蓋最大化問題，並採用基於歸因的近似方法高效求解。實驗在DeepSeek和Qwen系列MoE模型上進行，結果顯示：當結合4位量化時，該方法能在50%或25%的結構化剪枝下保持模型準確率。特別地，在Qwen3-30B-A3B模型上，該方法將內存佔用減少了5.27倍，並在多個基準測試中持續優於當前最先進的基線方法。這一工作為MoE模型的高效部署提供了新思路，通過精細化的通道級剪枝策略，在壓縮率與模型性能之間取得了更好的平衡。論文全文可在arXiv上獲取，並附有代碼和實驗復現信息。