AI News HubLIVE
站內改寫2 分鐘閱讀

自適應並行推理:高效推理擴充套件的下一個正規化

自適應並行推理(APR)是一種讓模型自主決定何時並行化、並行多少執行緒以及如何協調的新正規化。本文詳細分析了APR的動機、方法、訓練策略和評估,討論了其與固定並行方法的區別,並提出了未來研究方向。

來源BAIR Blog

自適應並行推理(Adaptive Parallel Reasoning, APR)是近年來大語言模型推理領域的一個重要發展方向。傳統的推理擴充套件方法主要依賴順序推理,透過增加推理步驟來提高準確性,但這種方法存線上性擴充套件成本、上下文視窗限制和延遲增長等問題。並行推理透過並行探索多條推理路徑來緩解這些問題,但大多數現有方法(如自一致性、Best-of-N、樹搜尋等)的並行結構是固定的,由外部決定而非模型自主選擇。

APR的核心思想是讓模型本身控制並行化過程。透過輸出特殊標記,模型可以自主決定何時進行並行推理、啟動多少個執行緒以及如何協調它們。這種自適應性帶來了三大優勢:首先,APR無需領域特定的分解啟發式,模型透過強化學習從試錯中學習通用的分解策略;其次,APR避免了冗餘計算,因為在分支之前模型已經規劃好每個執行緒的任務;最後,APR可以根據問題複雜度選擇不進行並行化,從而節省計算資源。

推理系統的實現涉及分叉-合併(fork-join)設計。線上程聚合階段,存在兩種主要方法:一種是修改推理引擎以重用KV快取(如Multiverse),另一種是保持引擎不變、在客戶端進行文本拼接(如ThreadWeaver)。前者可能帶來系統脆弱性和非標準位置編碼問題,後者雖然增加了預填充開銷,但更易於部署和相容現有硬體。

訓練APR模型需要結合監督微調(SFT)和強化學習(RL)。SFT主要讓模型學習並行控制流的輸出格式,而RL則提供準確性和效率獎勵。其中,效率獎勵需要跟蹤關鍵路徑(critical path)長度,即最長因果依賴的令牌序列,以衡量端到端生成時間。獎勵設計通常將正確性作為前提,只有當答案正確時才給予並行效率獎勵。

評估方面,不同論文聚焦不同指標:Multiverse和ThreadWeaver關注在同等準確率下降低延遲;NPR追求100%的並行率;Parallel-R1則強調並行性作為訓練時探索腳手架的價值。當前主要開放問題包括:並行性在推理時是否持續提升準確率,還是主要作為訓練時的探索工具?模型是否容易退化為順序推理?如何設計硬體感知的並行化訓練方法?以及是否支援遞迴併行(並行深度大於1)?

總之,APR代表了推理擴充套件的一個重要正規化轉變,儘管面臨諸多挑戰,但它有望實現更高效、更靈活的大語言模型推理。