AI News HubLIVE
站内改写1 分钟阅读

GeMoE:门控熵是MoE大视觉语言模型中不确定性感知自适应路由的全部所需

GeMoE通过将令牌路由视为信息编码任务,基于最小描述长度原则和门控熵实现自适应专家选择,在保持99.5%性能的同时将专家激活稀疏性提升36.5%。

来源arXiv Computer Vision作者: Chaoxiang Cai, Minghe Weng, Jie Li, Yibo Jiang, Longrong Yang, Zequn Qin, Xi Li

近年来,随着模型参数和训练数据的增加,大型视觉语言模型(LVLMs)的指令跟随和泛化能力显著提升。基于混合专家(MoE)架构,LVLMs在保持推理成本的同时扩展了参数容量。然而,传统的MoE方法采用固定的Top-k路由策略,无法根据输入变化自适应选择专家数量,导致资源利用率不佳。

针对这一问题,来自浙江大学等机构的研究人员提出了一种名为GeMoE(Gating Entropy-based Uncertainty-aware Adaptive Routing)的新型路由方法,将令牌路由视为信息编码任务,将动态路由建模为最小描述长度(MDL)问题。通过验证MoE场景中MDL与门控熵之间的联系,GeMoE利用门控熵评估令牌的复杂度,自适应地决定每个令牌应激活的专家数量。

与传统的静态或基于启发式的动态路由方法不同,GeMoE显式地建模了模型复杂度与性能之间的权衡。该方法不需要额外的辅助网络或训练阶段,可直接应用于现有的MoE架构。在广泛的骨干网络和基准测试上,GeMoE在保持平均99.5%原始静态路由性能的同时,将平均专家激活稀疏性提升了36.5%,显著提高了计算效率。

该研究为MoE模型的动态路由提供了新的视角,通过信息论原理实现了高效且自适应的专家选择。未来,团队计划进一步探索门控熵在其他架构中的应用,以及将其扩展到更复杂的多模态场景。相关论文已发表于arXiv(ID: 2606.26287)。