AI News HubLIVE
站内改写

EMO:预训练专家混合模型实现涌现模块化

艾伦人工智能研究所发布EMO模型,这是一种端到端预训练的混合专家(MoE)模型,其模块结构直接从数据中涌现,无需人工定义先验。EMO支持仅使用12.5%的专家子集即可保持接近全模型的性能,同时在全专家使用时仍能作为强大的通用模型。相比标准MoE,EMO的专家子集在选择性使用时性能下降显著更小。

文章情报

工程师进阶

要点

  • EMO是一种1B活跃参数、14B总参数的MoE模型,使用128个专家,每个token激活8个。
  • 通过文档级路由约束,EMO的专家集群形成语义领域(如医疗、新闻),而非低级句法模式。
  • 仅用12.5%专家子集即可保持近全模型性能,而标准MoE在此设置下性能急剧下降。
  • EMO的模块选择成本极低,单样本或少样本示例即可识别有效专家子集。

为什么重要

这条新闻值得关注,因为EMO是一种1B活跃参数、14B总参数的MoE模型,使用128个专家,每个token激活8个。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

艾伦人工智能研究所(Allen AI)今日发布了EMO(Emergent Modularity through pretraining mixture of Experts),这是一种新型混合专家(MoE)语言模型,其模块化结构在预训练过程中直接从数据中涌现,无需依赖人工定义的领域标签或先验知识。EMO的核心创新在于,它能够在保持全模型性能的同时,支持仅使用一小部分专家(例如12.5%的总专家)来执行特定任务,从而显著降低计算和内存需求。

传统的MoE模型虽然理论上允许按需激活少量专家,但在实践中,不同token通常激活不同的专家,导致完整任务生成过程中仍会使用几乎所有专家。研究团队发现,标准MoE的专家往往专门负责低级词汇模式(如介词或标点),而非高级语义领域。因此,小规模专家子集无法可靠地独立工作。

EMO通过引入文档级路由约束解决了这一问题。在训练期间,同一文档中的所有token被限制在共享的专家池中选择激活专家。路由网络首先为每个文档选择一组专家(例如4个),然后该文档的所有token只能在此池内路由。这种设计迫使专家集群学习语义相关的领域特征,而不是表面模式。为了平衡负载,团队采用了全局负载均衡策略,在不同文档间分散专家使用,从而避免模型崩溃。此外,文档池大小在训练中随机采样,使模型适应不同大小的专家子集。

实验结果显示,EMO在通用基准测试中与标准MoE性能相当,但在选择性使用专家子集时表现出显著优势。仅保留12.5%专家(16个)时,EMO的平均性能仅下降约3%;而标准MoE在类似设置下性能急剧下降,甚至接近随机水平。更重要的是,选择专家子集非常高效:仅需一个带有少量示例的提示即可识别出与完整验证集效果相当的模块。EMO还兼容现有的专家剪枝方法,如Easy-EP。

可视化分析表明,EMO的token聚类对应有意义的语义领域(如健康、医学、新闻、政治、电影音乐),而标准MoE的聚类则是介词、专有名词、系动词等。这种语义专化使得选取的专家子集能够保留真实的能力,而非表面特征。

艾伦AI已开源EMO的完整模型、训练代码和标准MoE基线,以促进社区研究。该工作为构建更模块化、可部署、可解释的语言模型迈出了重要一步,未来仍需探索更好的子集选择与组合方法。