2026-05-28 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

LaneRoPE：用于协作并行推理与生成的位置编码

LaneRoPE通过引入序列间注意力机制和位置编码扩展，使多个LLM序列在生成过程中能够协作，从而在数学推理任务中提升准确率，且对架构改动小、推理开销低。

来源arXiv AI作者: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, \`Alex Batlle Casellas, Jordi Ros-Giralt, Arash Behboodi, Tribhuvanesh Orekondy

大型语言模型（LLM）在测试时扩展技术（如最佳N采样）中，为了利用批处理的计算效率，需要从同一提示词生成多个独立序列。最佳N采样是一种常见的测试时扩展方法，它从模型中采样N个候选序列，然后基于某种评分函数（如多数投票或奖励模型）选择最佳输出。这种方法能够提升准确率，但每个序列在生成过程中完全独立，无法利用其他序列的中间计算结果或观察到的模式。这种独立性限制了推理效率，尤其是在需要复杂推理的任务中，因为不同序列可能在解决子问题时有互补的信息。

为了解决这一问题，论文提出LaneRoPE，一种用于协作并行推理与生成的位置编码方法。其核心包括两个关键创新：第一，序列间注意力掩码（inter-sequence attention mask），它允许不同序列在生成时相互关注，从而使得一个序列的采样可以依赖于其他序列的当前状态。这种机制打破了传统独立生成的壁垒，实现了跨序列的信息共享。第二，对旋转位置编码（RoPE）的扩展，称为LaneRoPE位置编码，它能够同时编码序列内部token之间的相对位置关系以及不同序列之间token的相对位置。这确保了模型在处理跨序列注意力时能够正确理解位置信息。

在数学推理任务上，研究者进行了大量实验。结果显示，在生成长度受限的情况下，LaneRoPE显著提高了准确率，相比独立生成的最佳N采样基线有显著提升。例如，在GSM8K和MATH等数据集上，LaneRoPE在有限的生成预算下实现了更高的正确率。这证明了序列间协作的有效性。

LaneRoPE的另一个重要优势是其对现有LLM架构的最小改动。它仅需在注意力机制中引入序列间注意力掩码，并对位置编码进行扩展，而不需要改变模型的其他部分。推理时，LaneRoPE增加的额外计算开销几乎可以忽略不计，这使得它非常适合于快速集成到现有的LLM推理管线中。该论文的作者来自多家机构，包括Google DeepMind等，显示了该研究的广泛关注。

总之，LaneRoPE为并行LLM推理提供了一种轻量级且有效的协作机制，有望推动测试时扩展技术的发展。未来的工作可能包括将LaneRoPE应用于更多的任务类型，以及探索更高效的跨序列通信机制。