2026-05-28 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LaneRoPE：用於協作並行推理與生成的位置編碼

LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件，使多個LLM序列在生成過程中能夠協作，從而在數學推理任務中提升準確率，且對架構改動小、推理開銷低。

來源arXiv AI作者: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, \`Alex Batlle Casellas, Jordi Ros-Giralt, Arash Behboodi, Tribhuvanesh Orekondy

大型語言模型（LLM）在測試時擴充套件技術（如最佳N取樣）中，為了利用批處理的計算效率，需要從同一提示詞生成多個獨立序列。最佳N取樣是一種常見的測試時擴充套件方法，它從模型中取樣N個候選序列，然後基於某種評分函式（如多數投票或獎勵模型）選擇最佳輸出。這種方法能夠提升準確率，但每個序列在生成過程中完全獨立，無法利用其他序列的中間計算結果或觀察到的模式。這種獨立性限制了推理效率，尤其是在需要複雜推理的任務中，因為不同序列可能在解決子問題時有互補的資訊。

為了解決這一問題，論文提出LaneRoPE，一種用於協作並行推理與生成的位置編碼方法。其核心包括兩個關鍵創新：第一，序列間注意力掩碼（inter-sequence attention mask），它允許不同序列在生成時相互關注，從而使得一個序列的取樣可以依賴於其他序列的當前狀態。這種機制打破了傳統獨立生成的壁壘，實現了跨序列的資訊共享。第二，對旋轉位置編碼（RoPE）的擴充套件，稱為LaneRoPE位置編碼，它能夠同時編碼序列內部token之間的相對位置關係以及不同序列之間token的相對位置。這確保了模型在處理跨序列注意力時能夠正確理解位置資訊。

在數學推理任務上，研究者進行了大量實驗。結果顯示，在生成長度受限的情況下，LaneRoPE顯著提高了準確率，相比獨立生成的最佳N取樣基線有顯著提升。例如，在GSM8K和MATH等資料集上，LaneRoPE在有限的生成預算下實現了更高的正確率。這證明了序列間協作的有效性。

LaneRoPE的另一個重要優勢是其對現有LLM架構的最小改動。它僅需在注意力機制中引入序列間注意力掩碼，並對位置編碼進行擴充套件，而不需要改變模型的其他部分。推理時，LaneRoPE增加的額外計算開銷幾乎可以忽略不計，這使得它非常適合於快速整合到現有的LLM推理管線中。該論文的作者來自多家機構，包括Google DeepMind等，顯示了該研究的廣泛關注。

總之，LaneRoPE為並行LLM推理提供了一種輕量級且有效的協作機制，有望推動測試時擴充套件技術的發展。未來的工作可能包括將LaneRoPE應用於更多的任務型別，以及探索更高效的跨序列通訊機制。