2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:09 UTC+8

GeMoE：门控熵是MoE大视觉语言模型中不确定性感知自适应路由的全部所需

GeMoE通过将令牌路由视为信息编码任务，基于最小描述长度原则和门控熵实现自适应专家选择，在保持99.5%性能的同时将专家激活稀疏性提升36.5%。

来源arXiv Computer Vision作者: Chaoxiang Cai, Minghe Weng, Jie Li, Yibo Jiang, Longrong Yang, Zequn Qin, Xi Li

近年来，随着模型参数和训练数据的增加，大型视觉语言模型（LVLMs）的指令跟随和泛化能力显著提升。基于混合专家（MoE）架构，LVLMs在保持推理成本的同时扩展了参数容量。然而，传统的MoE方法采用固定的Top-k路由策略，无法根据输入变化自适应选择专家数量，导致资源利用率不佳。

针对这一问题，来自浙江大学等机构的研究人员提出了一种名为GeMoE（Gating Entropy-based Uncertainty-aware Adaptive Routing）的新型路由方法，将令牌路由视为信息编码任务，将动态路由建模为最小描述长度（MDL）问题。通过验证MoE场景中MDL与门控熵之间的联系，GeMoE利用门控熵评估令牌的复杂度，自适应地决定每个令牌应激活的专家数量。

与传统的静态或基于启发式的动态路由方法不同，GeMoE显式地建模了模型复杂度与性能之间的权衡。该方法不需要额外的辅助网络或训练阶段，可直接应用于现有的MoE架构。在广泛的骨干网络和基准测试上，GeMoE在保持平均99.5%原始静态路由性能的同时，将平均专家激活稀疏性提升了36.5%，显著提高了计算效率。

该研究为MoE模型的动态路由提供了新的视角，通过信息论原理实现了高效且自适应的专家选择。未来，团队计划进一步探索门控熵在其他架构中的应用，以及将其扩展到更复杂的多模态场景。相关论文已发表于arXiv（ID: 2606.26287）。