AI News HubLIVE
站内改写2 分钟阅读

混合模型在哪些token上预测得更好?

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid,发现混合模型在内容词(名词、动词、形容词)和需要上下文推理的token上表现更优,但在重复token和闭合括号上优势消失。研究表明,基于token的损失过滤可以揭示架构间的细微差异。

Ai2团队近期在一项研究中,将自家最强的7B参数Transformer模型Olmo 3与混合模型Olmo Hybrid进行了细致对比,旨在揭示混合模型在token级别上的预测优势。混合模型作为一种新兴的语言模型架构,已在标准基准测试中展现出与Transformer相当甚至更优的性能,但具体的优势模式尚不明确。

研究团队通过对比两个模型——它们在数据、分词器和训练方案上高度一致,唯架构不同——在预测各种类型token时的损失差异,来探究架构本身带来的影响。token作为语言模型输入的基本信息单元,其预测难度因类型而异。

实验结果显示,混合模型在多数token上表现更优,但优势并不均匀。具体而言,Olmo Hybrid在携带意义的token(如名词、动词、形容词)上优势明显,损失差距约为0.04;而在语法功能词(如“the”、“of”、“is”)上,优势缩小至0.02左右。混合模型尤其擅长预测需要跟踪上下文状态的token,例如代词所指代的对象。然而,当需要预测的token仅仅是前文中已出现内容的重复(即复制任务)时,混合模型的优势几乎消失,而这正是Transformer的强项。此外,在闭合括号(如代码中的“}”)的预测上,Transformer与混合模型表现相当,因为注意力机制足以处理括号匹配。

为了更深入地理解这些差异,研究团队采用了过滤损失的方法,仅分析特定类型token上的损失,从而在预训练早期就能区分不同架构的能力。他们使用三个1B参数模型(纯Transformer、混合模型、纯递归模型)进行实验,发现对非重复的内容词,混合模型和纯递归模型均优于Transformer,其中混合模型最佳;而在重复token上,缺乏注意力机制的纯递归模型表现最差。

这些发现表明,单一的整体损失指标过于粗糙,不足以准确比较不同架构。通过聚焦于具体能力相关的token损失,可以更清晰地揭示架构的优劣势。对于混合模型而言,其递归层在跟踪状态和处理开放类词汇方面具有独特优势,这可能是其优于Transformer的关键。

研究团队计划将这些发现应用到后续的混合模型优化中,相信通过理解每个组件在token级别上的表现,能够设计出更优的混合架构。完整报告已在arXiv上公开。