状態コミットメント学習:言語モデルに計算と記憶の区別を教える
この研究は状態コミットメント学習を提案し、反実在消去強化学習(CERL)を用いて言語モデルに一時的な計算と永続的な状態を区別させ、精度を犠牲にすることなく隠れた思考への依存を低減する。
言語モデルが推論を行う際、生成されたすべての隠れた思考(hidden thoughts)はコンテキストに残り、失敗した試行や行き止まり、プライベートなスクラッチワークも含まれます。その結果、後の推論がこれらの一時的な計算に依存してしまう可能性があります。この問題に対処するため、研究者らは状態コミットメント学習(state commitment learning)を提案しました。これは、モデルがどの情報を永続的な状態として保持し、どの情報を一時的な計算として破棄すべきかを明示的に区別する訓練手法です。
本研究の核心は、反実在基準である永続状態充足性(persistent-state sufficiency)を定義した点にあります。これにより、「隠れた思考を消去した後も回答が有効かどうか」が訓練可能かつ測定可能な目標となりました。この基準に基づき、反実在消去強化学習(Counterfactual Erasure RL, CERL)が提案されました。CERLは、同じプレフィックスの下で隠れた思考を保持するパスと消去するパスを評価し、消去パスが正しい場合のみ報酬を与えます。これにより、モデルは一時的な計算に依存せずに正しい回答を生成することを学習します。
さらに、消去依存プロトコル(Erasure Dependence Protocol)が導入され、回答が隠れた思考にどの程度依存しているかを定量化します。数学、長鎖論理、科学QA、マルチターンツール使用などの評価タスクにおいて、CERLは精度を維持しながら隠れた思考への依存を大幅に低減し、正解のみに基づく強化学習や長文回答の教師あり学習ベースラインを一貫して上回りました。この研究は、より信頼性の高い言語モデル、特に複雑な推論を要する分野での応用に向けた重要な一歩です。