歸因引導與覆蓋最大化的結構化MoE剪枝方法
本文提出一種面向混合專家模型的結構化剪枝框架,通過將剪枝比率分配轉化為通道分數覆蓋最大化問題,並利用基於歸因的近似方法高效求解。實驗表明,在50%或25%結構化剪枝結合4位量化條件下,該方法在DeepSeek和Qwen MoE模型上保持了模型精度,並在Qwen3-30B-A3B上實現5.27倍內存壓縮,超越現有基準。
來源arXiv Machine Learning作者: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao
來自arXiv的一篇新論文提出了一種針對混合專家(MoE)模型的結構化剪枝方法,旨在解決部署這類模型時面臨的高內存佔用和推理開銷問題。該研究由Yifu Ding等七位作者完成,已被提交至ICML 2026。混合專家模型通過稀疏激活機制實現了計算效率的擴展,但龐大的參數量仍然導致實際部署成本居高不下。現有壓縮方法通常以專家為單位進行操作,例如直接移除整個專家或基於粗粒度重要性評分對專家進行排序。然而,這種專家級別的決策過於粗糙,難以捕捉細粒度冗餘,從而導致剪枝預算分配不當,壓縮效果受限。研究團隊通過觀察發現,MoE專家內部的信息高度集中於一小部分通道,即便是被認為重要的專家也包含大量冗餘。基於這一洞察,他們設計了一個專門針對MoE模型的結構化剪枝框架。該方法將剪枝比率分配問題重新表述為通道分數覆蓋最大化問題,並採用基於歸因的近似方法高效求解。實驗在DeepSeek和Qwen系列MoE模型上進行,結果顯示:當結合4位量化時,該方法能在50%或25%的結構化剪枝下保持模型準確率。特別地,在Qwen3-30B-A3B模型上,該方法將內存佔用減少了5.27倍,並在多個基準測試中持續優於當前最先進的基線方法。這一工作為MoE模型的高效部署提供了新思路,通過精細化的通道級剪枝策略,在壓縮率與模型性能之間取得了更好的平衡。論文全文可在arXiv上獲取,並附有代碼和實驗復現信息。