AI News HubLIVE
站内改写2 分钟阅读

EMO:通过预训练混合专家实现涌现模块化

EMO是一种新型混合专家模型,通过端到端预训练使模块结构从数据中自然涌现,无需人工定义先验。用户可为特定任务仅选择少量专家子集(12.5%),同时保持接近完整模型性能;当使用所有专家时,它仍是一个强大的通用模型。

来源Ai2 Blog

EMO:预训练混合专家模型实现涌现模块化

2026年5月8日,艾伦人工智能研究所(Ai2)发布了一项重要成果——EMO(Emergent Modularity from pretraining mixture of experts),这是一种全新的混合专家(MoE)模型。与传统的端到端训练方法不同,EMO通过创新的训练策略,使得模块化结构直接从数据中涌现,无需依赖任何人工定义的先验知识。

大型语言模型通常作为单一整体进行训练和部署,但随着模型参数规模达到万亿级别,这种“一刀切”的方式在计算成本和内存占用上变得日益昂贵。MoE模型通过引入多个专家(feedforward网络)并仅为每个输入激活少量专家,试图缓解这一问题。然而,现有MoE模型在实际应用中依然需要完整的模型才能正常运作,因为不同令牌可能激活不同专家,导致任务执行时实际上用到了所有专家。

EMO的核心创新在于其文档级路由约束机制。在训练过程中,同一文档内的所有令牌被限制只能从一个共享的专家池中选择激活专家,这个池由路由器根据平均偏好自动确定。这种设计鼓励了专家根据语义领域自然分组。为了平衡负载,研究人员采用了全局负载均衡策略,避免了与局部路由约束的冲突,同时随机采样专家池大小,增强了模型的泛化能力。

实验结果显示,EMO在通用基准测试上与标准MoE性能相当,但在选择性专家使用上表现出色。仅保留25%的专家(32个)时,性能损失仅约1%;即使保留12.5%的专家(16个),整体性能下降也仅有3%左右。相比之下,标准MoE在相同条件下性能急剧下降,甚至接近随机水平。更重要的是,专家选择过程非常高效:仅需少量示例即可确定合适的专家子集。

通过聚类分析,研究者发现EMO的专家集群映射到清晰的语义领域,如健康、医疗、新闻、政治、电影与音乐等。而标准MoE的集群则大多对应介词、专有名词等低层词汇模式。这一差异解释了为什么EMO允许选择性的专家子集运行——因为每个子集代表了一个真正的能力领域。

目前,Ai2已开源EMO完整模型、匹配的标准MoE基线以及训练代码。研究团队表示,EMO是迈向模块化大型稀疏模型的第一步,未来仍有诸多挑战,如优化专家子集的选取与组合、在不破坏完整模型的情况下更新模块,以及利用模块结构提升可解释性和可控性。他们期待社区共同探索,构建更易部署、适应、审查和组合的模块化语言模型。