2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

狀態承諾學習：訓練語言模型區分計算與記憶

該研究提出狀態承諾學習，通過反事實擦除強化學習（CERL）訓練語言模型區分臨時計算與持久狀態，在不犧牲準確性的前提下減少答案對隱藏思維的依賴。

來源arXiv Machine Learning作者: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang

文章情報

投資人進階

要點

語言模型在推理時生成的所有隱藏思維都會進入上下文，導致後續推理可能依賴失敗的嘗試和錯誤。
提出狀態承諾學習目標，訓練模型區分應保留的持久狀態和可丟棄的臨時計算。
反事實擦除強化學習（CERL）通過比較保留和擦除隱藏思維路徑的獎勵，迫使模型在擦除路徑上保持正確。
實驗表明CERL在數學、邏輯、科學問答和多輪工具使用中顯著降低對隱藏思維的依賴，性能優於其他基線。

為甚麼重要

這條新聞值得關注，因為語言模型在推理時生成的所有隱藏思維都會進入上下文，導致後續推理可能依賴失敗的嘗試和錯誤。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

語言模型在推理時，會將生成的所有隱藏思維（hidden thoughts）保留在上下文中，這些思維包括失敗的嘗試、死衚衕以及私密的草稿。這種機制可能導致下游推理依賴於本應丟棄的臨時計算，而非真正可靠的持久狀態。為了應對這一挑戰，研究人員提出了狀態承諾學習（state commitment learning），旨在訓練模型明確區分哪些信息應作為持久狀態保留，哪些是臨時計算可以丟棄。

該研究的核心貢獻包括定義了一個反事實準則——持久狀態充分性（persistent-state sufficiency），該準則使得“在擦除隱藏思維後答案是否仍然可用”成為可訓練和可衡量的目標。基於此，團隊提出了反事實擦除強化學習（Counterfactual Erasure RL, CERL）。CERL在相同前綴下同時評估保留隱藏思維和擦除隱藏思維兩條路徑，並僅當擦除路徑正確時給予獎勵，從而迫使模型不依賴臨時計算。

此外，研究者還引入了擦除依賴協議（Erasure Dependence Protocol）來量化答案對隱藏思維的依賴程度。在數學、長鏈邏輯、科學問答和多輪工具使用等任務的評估中，CERL顯著減少了答案對隱藏思維的依賴，同時保持了準確性，優於僅基於正確性的強化學習和長答案監督式微調基線。這項工作為構建更可靠的語言模型提供了新方向，尤其在複雜推理場景中具有重要應用價值。