AI News HubLIVE
站内改写1 分鐘閱讀

狀態承諾學習:訓練語言模型區分計算與記憶

該研究提出狀態承諾學習,通過反事實擦除強化學習(CERL)訓練語言模型區分臨時計算與持久狀態,在不犧牲準確性的前提下減少答案對隱藏思維的依賴。

來源arXiv Machine Learning作者: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang

語言模型在推理時,會將生成的所有隱藏思維(hidden thoughts)保留在上下文中,這些思維包括失敗的嘗試、死衚衕以及私密的草稿。這種機制可能導致下游推理依賴於本應丟棄的臨時計算,而非真正可靠的持久狀態。為了應對這一挑戰,研究人員提出了狀態承諾學習(state commitment learning),旨在訓練模型明確區分哪些信息應作為持久狀態保留,哪些是臨時計算可以丟棄。

該研究的核心貢獻包括定義了一個反事實準則——持久狀態充分性(persistent-state sufficiency),該準則使得“在擦除隱藏思維後答案是否仍然可用”成為可訓練和可衡量的目標。基於此,團隊提出了反事實擦除強化學習(Counterfactual Erasure RL, CERL)。CERL在相同前綴下同時評估保留隱藏思維和擦除隱藏思維兩條路徑,並僅當擦除路徑正確時給予獎勵,從而迫使模型不依賴臨時計算。

此外,研究者還引入了擦除依賴協議(Erasure Dependence Protocol)來量化答案對隱藏思維的依賴程度。在數學、長鏈邏輯、科學問答和多輪工具使用等任務的評估中,CERL顯著減少了答案對隱藏思維的依賴,同時保持了準確性,優於僅基於正確性的強化學習和長答案監督式微調基線。這項工作為構建更可靠的語言模型提供了新方向,尤其在複雜推理場景中具有重要應用價值。