PathCal:狀態感知的反思標記校準以實現高效推理
大型推理語言模型(LRM)在推理過程中會產生包含“等等”、“但是”、“或者”等反思標記的長鏈思維軌跡。研究表明這些標記的功能角色和影響時機各不相同。PathCal是一種無需訓練的解碼控制器,透過區分標記型別並在區域性不確定狀態進行干預,在保持或提高精度的同時減少生成長度,實現更好的效率-效能平衡。
文章情報
要點
- 反思標記如“等等”、“但是”、“或者”具有不同的功能角色,且其影響在模型穩定推理前最為顯著。
- PathCal是一種無需訓練的推理路徑校準方法,透過軟重平衡標記對數機率來干預不確定狀態。
- 在六個推理基準上,PathCal在保持或提升準確率的同時減少了生成長度。
為什麼重要
這條新聞值得關注,因為反思標記如“等等”、“但是”、“或者”具有不同的功能角色,且其影響在模型穩定推理前最為顯著。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型推理語言模型(LRM)透過生成長鏈思維軌跡來應對複雜推理任務,但在這些軌跡中常出現的反思標記(如“等等”、“但是”、“或者”)並未被充分割槽分利用。最新研究《PathCal:狀態感知的反思標記校準以實現高效推理》指出,這些標記不僅功能不同,其影響時機也各異:在模型穩定推理前進行干預效果最佳。該論文來自Lingyu Jiang等9位作者,於2026年5月21日提交至arXiv。
研究者首先進行了型別級抑制和固定字首干預實驗,揭示了反思標記的差異化作用。例如,“等等”表示猶豫,“但是”表示修正,“或者”表示考慮替代方案。不同標記對準確率和生成長度的影響截然不同,且標記選擇在模型尚未進入穩定推理軌跡時最為關鍵。這一發現挑戰了以往將反思標記視為單一粗粒度類別的做法。
基於此,研究者提出了PathCal,一種無需額外訓練的解碼控制器。它在每個解碼步驟中利用反思標記的分佈來估計當前推理軌跡與競爭分支之間的區域性競爭程度。當競爭分支的證據過強時,PathCal會透過軟重平衡標記的對數機率進行干預,從而引導模型走向更高效的推理路徑。這種狀態感知的干預機制僅針對區域性不確定性,避免了對整個推理過程的強制修改。
實驗覆蓋了六個推理基準測試,包括數學推理、常識推理等任務。結果顯示,PathCal在多數情況下保持甚至提升了準確率,同時顯著縮短了推理輸出長度。與依賴外部驗證器或額外取樣方法不同,PathCal無需額外計算資源即可實現效率與效能的更好平衡。該方法特別適用於計算資源受限或需要快速響應的場景,為推理過程的細粒度控制提供了新思路。
路徑校準技術的出現可能對模型選型、推理成本、產品能力及評估基準產生深遠影響。未來工作可探索將PathCal擴充套件到更大規模的模型和更多樣化的任務中,以及進一步最佳化干預策略以應對更復雜的推理挑戰。