LaneRoPE:用於協作並行推理與生成的位置編碼
LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件,使多個LLM序列在生成過程中能夠協作,從而在數學推理任務中提升準確率,且對架構改動小、推理開銷低。
文章情報
要點
- LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。
- 擴充套件旋轉位置編碼(RoPE),捕捉序列內和序列間的位置資訊。
- 在數學推理任務上,LaneRoPE在有限生成長度下顯著提升準確率。
- 僅需對LLM架構做極小修改,推理時開銷可忽略。
為什麼重要
這條新聞值得關注,因為LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型語言模型(LLM)在測試時擴充套件技術(如最佳N取樣)中,為了利用批處理的計算效率,需要從同一提示詞生成多個獨立序列。最佳N取樣是一種常見的測試時擴充套件方法,它從模型中取樣N個候選序列,然後基於某種評分函式(如多數投票或獎勵模型)選擇最佳輸出。這種方法能夠提升準確率,但每個序列在生成過程中完全獨立,無法利用其他序列的中間計算結果或觀察到的模式。這種獨立性限制了推理效率,尤其是在需要複雜推理的任務中,因為不同序列可能在解決子問題時有互補的資訊。
為了解決這一問題,論文提出LaneRoPE,一種用於協作並行推理與生成的位置編碼方法。其核心包括兩個關鍵創新:第一,序列間注意力掩碼(inter-sequence attention mask),它允許不同序列在生成時相互關注,從而使得一個序列的取樣可以依賴於其他序列的當前狀態。這種機制打破了傳統獨立生成的壁壘,實現了跨序列的資訊共享。第二,對旋轉位置編碼(RoPE)的擴充套件,稱為LaneRoPE位置編碼,它能夠同時編碼序列內部token之間的相對位置關係以及不同序列之間token的相對位置。這確保了模型在處理跨序列注意力時能夠正確理解位置資訊。
在數學推理任務上,研究者進行了大量實驗。結果顯示,在生成長度受限的情況下,LaneRoPE顯著提高了準確率,相比獨立生成的最佳N取樣基線有顯著提升。例如,在GSM8K和MATH等資料集上,LaneRoPE在有限的生成預算下實現了更高的正確率。這證明了序列間協作的有效性。
LaneRoPE的另一個重要優勢是其對現有LLM架構的最小改動。它僅需在注意力機制中引入序列間注意力掩碼,並對位置編碼進行擴充套件,而不需要改變模型的其他部分。推理時,LaneRoPE增加的額外計算開銷幾乎可以忽略不計,這使得它非常適合於快速整合到現有的LLM推理管線中。該論文的作者來自多家機構,包括Google DeepMind等,顯示了該研究的廣泛關注。
總之,LaneRoPE為並行LLM推理提供了一種輕量級且有效的協作機制,有望推動測試時擴充套件技術的發展。未來的工作可能包括將LaneRoPE應用於更多的任務型別,以及探索更高效的跨序列通訊機制。