2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

MODE：面向MoE多模態大語言模型的模態分解專家級混合精度量化

混合專家多模態大語言模型（MoE-MLLMs）在效能優異的同時，GPU視訊記憶體消耗巨大，模型壓縮至關重要。現有專家級混合精度量化方法在MoE-MLLMs上效果不佳，原因在於專家重要性估計存在兩種偏差：跨模態層面視覺令牌佔主導導致文本相關專家被掩蓋，以及視覺內部大量冗餘令牌進一步扭曲頻率統計。為此，MODE框架透過模態分解、冗餘令牌過濾和量化敏感度評估，結合整數線性規劃為每個專家分配最優位元寬度，在W3A16設定下平均效能損失僅2.9%。

來源arXiv Machine Learning作者: Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng

混合專家多模態大語言模型（MoE-MLLMs）結合了稀疏專家路由與多模態處理能力，在複雜任務上表現出色，但巨大的GPU視訊記憶體消耗成為部署的主要障礙。後訓練量化（PTQ）是一種有效的模型壓縮技術，其中專家級混合精度量化已被證明對純文本的MoE-LLMs有效。然而，直接應用於MoE-MLLMs時，量化效果顯著下降。Yuanteng Chen等人發現，這源於兩項被忽視的專家重要性估計偏差。

首先，在跨模態層面，視覺令牌在數量上佔據絕對優勢，導致專家選擇頻率被視覺模態主導，使得對文本模態至關重要的專家被掩蓋。其次，在視覺內部層面，大量冗餘的視覺令牌進一步扭曲了頻率統計，使得對關鍵視覺內容重要的專家無法被準確識別。這些偏差導致傳統的頻率估計方法失效，無法為專家分配合理的量化精度。

為解決這一問題，研究團隊提出了MODE（模態分解專家級混合精度量化）框架。MODE的核心創新在於：首先，將專家選擇頻率按模態分解，區分視覺和文本專家的重要性；其次，透過過濾冗餘視覺令牌，獲得去噪後的視覺頻率，從而更準確地反映視覺專家的真實貢獻；此外，還評估每個模態的量化敏感度，作為頻率估計的補充訊號。這些訊號被整合到一個整數線性規劃（ILP）問題中，在給定的總位元預算下，為每個專家分配最優的位元寬度。

實驗結果表明，MODE特別適合MoE-MLLMs。在W3A16（權重3位元、啟用16位元）設定下，平均效能損失被限制在2.9%以內；在極端的2位元權重設定下，MODE的效能增益更為顯著。該研究為高效部署多模態大模型提供了新的思路，有望推動MoE-MLLMs在即時應用和資源受限裝置上的落地。