2026-06-26 00:11 UTC+8站内改写2 分钟阅读更新: 2026-06-26 00:15 UTC+8

混合模型在哪些token上预测得更好？

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid，发现混合模型在内容词（名词、动词、形容词）和需要上下文推理的token上表现更优，但在重复token和闭合括号上优势消失。研究表明，基于token的损失过滤可以揭示架构间的细微差异。

来源Hugging Face Blog

Ai2团队近期在一项研究中，将自家最强的7B参数Transformer模型Olmo 3与混合模型Olmo Hybrid进行了细致对比，旨在揭示混合模型在token级别上的预测优势。混合模型作为一种新兴的语言模型架构，已在标准基准测试中展现出与Transformer相当甚至更优的性能，但具体的优势模式尚不明确。

研究团队通过对比两个模型——它们在数据、分词器和训练方案上高度一致，唯架构不同——在预测各种类型token时的损失差异，来探究架构本身带来的影响。token作为语言模型输入的基本信息单元，其预测难度因类型而异。

实验结果显示，混合模型在多数token上表现更优，但优势并不均匀。具体而言，Olmo Hybrid在携带意义的token（如名词、动词、形容词）上优势明显，损失差距约为0.04；而在语法功能词（如“the”、“of”、“is”）上，优势缩小至0.02左右。混合模型尤其擅长预测需要跟踪上下文状态的token，例如代词所指代的对象。然而，当需要预测的token仅仅是前文中已出现内容的重复（即复制任务）时，混合模型的优势几乎消失，而这正是Transformer的强项。此外，在闭合括号（如代码中的“}”）的预测上，Transformer与混合模型表现相当，因为注意力机制足以处理括号匹配。

为了更深入地理解这些差异，研究团队采用了过滤损失的方法，仅分析特定类型token上的损失，从而在预训练早期就能区分不同架构的能力。他们使用三个1B参数模型（纯Transformer、混合模型、纯递归模型）进行实验，发现对非重复的内容词，混合模型和纯递归模型均优于Transformer，其中混合模型最佳；而在重复token上，缺乏注意力机制的纯递归模型表现最差。

这些发现表明，单一的整体损失指标过于粗糙，不足以准确比较不同架构。通过聚焦于具体能力相关的token损失，可以更清晰地揭示架构的优劣势。对于混合模型而言，其递归层在跟踪状态和处理开放类词汇方面具有独特优势，这可能是其优于Transformer的关键。

研究团队计划将这些发现应用到后续的混合模型优化中，相信通过理解每个组件在token级别上的表现，能够设计出更优的混合架构。完整报告已在arXiv上公开。