AI News HubLIVE
站内改写1 分鐘閱讀

MODE:面向MoE多模態大語言模型的模態分解專家級混合精度量化

混合專家多模態大語言模型(MoE-MLLMs)在效能優異的同時,GPU視訊記憶體消耗巨大,模型壓縮至關重要。現有專家級混合精度量化方法在MoE-MLLMs上效果不佳,原因在於專家重要性估計存在兩種偏差:跨模態層面視覺令牌佔主導導致文本相關專家被掩蓋,以及視覺內部大量冗餘令牌進一步扭曲頻率統計。為此,MODE框架透過模態分解、冗餘令牌過濾和量化敏感度評估,結合整數線性規劃為每個專家分配最優位元寬度,在W3A16設定下平均效能損失僅2.9%。

來源arXiv Machine Learning作者: Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng

混合專家多模態大語言模型(MoE-MLLMs)結合了稀疏專家路由與多模態處理能力,在複雜任務上表現出色,但巨大的GPU視訊記憶體消耗成為部署的主要障礙。後訓練量化(PTQ)是一種有效的模型壓縮技術,其中專家級混合精度量化已被證明對純文本的MoE-LLMs有效。然而,直接應用於MoE-MLLMs時,量化效果顯著下降。Yuanteng Chen等人發現,這源於兩項被忽視的專家重要性估計偏差。

首先,在跨模態層面,視覺令牌在數量上佔據絕對優勢,導致專家選擇頻率被視覺模態主導,使得對文本模態至關重要的專家被掩蓋。其次,在視覺內部層面,大量冗餘的視覺令牌進一步扭曲了頻率統計,使得對關鍵視覺內容重要的專家無法被準確識別。這些偏差導致傳統的頻率估計方法失效,無法為專家分配合理的量化精度。

為解決這一問題,研究團隊提出了MODE(模態分解專家級混合精度量化)框架。MODE的核心創新在於:首先,將專家選擇頻率按模態分解,區分視覺和文本專家的重要性;其次,透過過濾冗餘視覺令牌,獲得去噪後的視覺頻率,從而更準確地反映視覺專家的真實貢獻;此外,還評估每個模態的量化敏感度,作為頻率估計的補充訊號。這些訊號被整合到一個整數線性規劃(ILP)問題中,在給定的總位元預算下,為每個專家分配最優的位元寬度。

實驗結果表明,MODE特別適合MoE-MLLMs。在W3A16(權重3位元、啟用16位元)設定下,平均效能損失被限制在2.9%以內;在極端的2位元權重設定下,MODE的效能增益更為顯著。該研究為高效部署多模態大模型提供了新的思路,有望推動MoE-MLLMs在即時應用和資源受限裝置上的落地。