LaneRoPE:用于协作并行推理与生成的位置编码
LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。
文章情报
要点
- LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。
- 扩展旋转位置编码(RoPE),捕捉序列内和序列间的位置信息。
- 在数学推理任务上,LaneRoPE在有限生成长度下显著提升准确率。
- 仅需对LLM架构做极小修改,推理时开销可忽略。
为什么重要
这条新闻值得关注,因为LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
大型语言模型(LLM)在测试时扩展技术(如最佳N采样)中,为了利用批处理的计算效率,需要从同一提示词生成多个独立序列。最佳N采样是一种常见的测试时扩展方法,它从模型中采样N个候选序列,然后基于某种评分函数(如多数投票或奖励模型)选择最佳输出。这种方法能够提升准确率,但每个序列在生成过程中完全独立,无法利用其他序列的中间计算结果或观察到的模式。这种独立性限制了推理效率,尤其是在需要复杂推理的任务中,因为不同序列可能在解决子问题时有互补的信息。
为了解决这一问题,论文提出LaneRoPE,一种用于协作并行推理与生成的位置编码方法。其核心包括两个关键创新:第一,序列间注意力掩码(inter-sequence attention mask),它允许不同序列在生成时相互关注,从而使得一个序列的采样可以依赖于其他序列的当前状态。这种机制打破了传统独立生成的壁垒,实现了跨序列的信息共享。第二,对旋转位置编码(RoPE)的扩展,称为LaneRoPE位置编码,它能够同时编码序列内部token之间的相对位置关系以及不同序列之间token的相对位置。这确保了模型在处理跨序列注意力时能够正确理解位置信息。
在数学推理任务上,研究者进行了大量实验。结果显示,在生成长度受限的情况下,LaneRoPE显著提高了准确率,相比独立生成的最佳N采样基线有显著提升。例如,在GSM8K和MATH等数据集上,LaneRoPE在有限的生成预算下实现了更高的正确率。这证明了序列间协作的有效性。
LaneRoPE的另一个重要优势是其对现有LLM架构的最小改动。它仅需在注意力机制中引入序列间注意力掩码,并对位置编码进行扩展,而不需要改变模型的其他部分。推理时,LaneRoPE增加的额外计算开销几乎可以忽略不计,这使得它非常适合于快速集成到现有的LLM推理管线中。该论文的作者来自多家机构,包括Google DeepMind等,显示了该研究的广泛关注。
总之,LaneRoPE为并行LLM推理提供了一种轻量级且有效的协作机制,有望推动测试时扩展技术的发展。未来的工作可能包括将LaneRoPE应用于更多的任务类型,以及探索更高效的跨序列通信机制。