2026-06-17站内改写1 分钟阅读更新: 2026-06-17

MODE：面向MoE多模态大语言模型的模态分解专家级混合精度量化

混合专家多模态大语言模型（MoE-MLLMs）在性能优异的同时，GPU显存消耗巨大，模型压缩至关重要。现有专家级混合精度量化方法在MoE-MLLMs上效果不佳，原因在于专家重要性估计存在两种偏差：跨模态层面视觉令牌占主导导致文本相关专家被掩盖，以及视觉内部大量冗余令牌进一步扭曲频率统计。为此，MODE框架通过模态分解、冗余令牌过滤和量化敏感度评估，结合整数线性规划为每个专家分配最优比特宽度，在W3A16设置下平均性能损失仅2.9%。

来源arXiv Machine Learning作者: Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng

混合专家多模态大语言模型（MoE-MLLMs）结合了稀疏专家路由与多模态处理能力，在复杂任务上表现出色，但巨大的GPU显存消耗成为部署的主要障碍。后训练量化（PTQ）是一种有效的模型压缩技术，其中专家级混合精度量化已被证明对纯文本的MoE-LLMs有效。然而，直接应用于MoE-MLLMs时，量化效果显著下降。Yuanteng Chen等人发现，这源于两项被忽视的专家重要性估计偏差。

首先，在跨模态层面，视觉令牌在数量上占据绝对优势，导致专家选择频率被视觉模态主导，使得对文本模态至关重要的专家被掩盖。其次，在视觉内部层面，大量冗余的视觉令牌进一步扭曲了频率统计，使得对关键视觉内容重要的专家无法被准确识别。这些偏差导致传统的频率估计方法失效，无法为专家分配合理的量化精度。

为解决这一问题，研究团队提出了MODE（模态分解专家级混合精度量化）框架。MODE的核心创新在于：首先，将专家选择频率按模态分解，区分视觉和文本专家的重要性；其次，通过过滤冗余视觉令牌，获得去噪后的视觉频率，从而更准确地反映视觉专家的真实贡献；此外，还评估每个模态的量化敏感度，作为频率估计的补充信号。这些信号被整合到一个整数线性规划（ILP）问题中，在给定的总比特预算下，为每个专家分配最优的比特宽度。

实验结果表明，MODE特别适合MoE-MLLMs。在W3A16（权重3比特、激活16比特）设置下，平均性能损失被限制在2.9%以内；在极端的2比特权重设置下，MODE的性能增益更为显著。该研究为高效部署多模态大模型提供了新的思路，有望推动MoE-MLLMs在实时应用和资源受限设备上的落地。