MODE:面向MoE多模态大语言模型的模态分解专家级混合精度量化
混合专家多模态大语言模型(MoE-MLLMs)在性能优异的同时,GPU显存消耗巨大,模型压缩至关重要。现有专家级混合精度量化方法在MoE-MLLMs上效果不佳,原因在于专家重要性估计存在两种偏差:跨模态层面视觉令牌占主导导致文本相关专家被掩盖,以及视觉内部大量冗余令牌进一步扭曲频率统计。为此,MODE框架通过模态分解、冗余令牌过滤和量化敏感度评估,结合整数线性规划为每个专家分配最优比特宽度,在W3A16设置下平均性能损失仅2.9%。
混合专家多模态大语言模型(MoE-MLLMs)结合了稀疏专家路由与多模态处理能力,在复杂任务上表现出色,但巨大的GPU显存消耗成为部署的主要障碍。后训练量化(PTQ)是一种有效的模型压缩技术,其中专家级混合精度量化已被证明对纯文本的MoE-LLMs有效。然而,直接应用于MoE-MLLMs时,量化效果显著下降。Yuanteng Chen等人发现,这源于两项被忽视的专家重要性估计偏差。
首先,在跨模态层面,视觉令牌在数量上占据绝对优势,导致专家选择频率被视觉模态主导,使得对文本模态至关重要的专家被掩盖。其次,在视觉内部层面,大量冗余的视觉令牌进一步扭曲了频率统计,使得对关键视觉内容重要的专家无法被准确识别。这些偏差导致传统的频率估计方法失效,无法为专家分配合理的量化精度。
为解决这一问题,研究团队提出了MODE(模态分解专家级混合精度量化)框架。MODE的核心创新在于:首先,将专家选择频率按模态分解,区分视觉和文本专家的重要性;其次,通过过滤冗余视觉令牌,获得去噪后的视觉频率,从而更准确地反映视觉专家的真实贡献;此外,还评估每个模态的量化敏感度,作为频率估计的补充信号。这些信号被整合到一个整数线性规划(ILP)问题中,在给定的总比特预算下,为每个专家分配最优的比特宽度。
实验结果表明,MODE特别适合MoE-MLLMs。在W3A16(权重3比特、激活16比特)设置下,平均性能损失被限制在2.9%以内;在极端的2比特权重设置下,MODE的性能增益更为显著。该研究为高效部署多模态大模型提供了新的思路,有望推动MoE-MLLMs在实时应用和资源受限设备上的落地。