2026-06-05 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

状態コミットメント学習：言語モデルに計算と記憶の区別を教える

この研究は状態コミットメント学習を提案し、反実在消去強化学習（CERL）を用いて言語モデルに一時的な計算と永続的な状態を区別させ、精度を犠牲にすることなく隠れた思考への依存を低減する。

ソースarXiv Machine Learning著者: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang

記事インテリジェンス

投資家上級

要点

推論時に生成されたすべての隠れた思考がコンテキストに残り、失敗した試行や行き止まりに依存する問題がある。
状態コミットメント学習の目標は、保持すべき永続状態と破棄可能な一時計算を区別すること。
反実在消去強化学習（CERL）は、同じプレフィックスで隠れた思考を保持するパスと消去するパスを評価し、消去パスが正しい場合のみ報酬を与える。
数学、長鎖論理、科学QA、マルチターンツール使用の評価で、CERLは精度を保ちながら隠れた思考への依存を大幅に削減した。

重要な理由

このニュースが重要なのは、推論時に生成されたすべての隠れた思考がコンテキストに残り、失敗した試行や行き止まりに依存する問題があるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

言語モデルが推論を行う際、生成されたすべての隠れた思考（hidden thoughts）はコンテキストに残り、失敗した試行や行き止まり、プライベートなスクラッチワークも含まれます。その結果、後の推論がこれらの一時的な計算に依存してしまう可能性があります。この問題に対処するため、研究者らは状態コミットメント学習（state commitment learning）を提案しました。これは、モデルがどの情報を永続的な状態として保持し、どの情報を一時的な計算として破棄すべきかを明示的に区別する訓練手法です。

本研究の核心は、反実在基準である永続状態充足性（persistent-state sufficiency）を定義した点にあります。これにより、「隠れた思考を消去した後も回答が有効かどうか」が訓練可能かつ測定可能な目標となりました。この基準に基づき、反実在消去強化学習（Counterfactual Erasure RL, CERL）が提案されました。CERLは、同じプレフィックスの下で隠れた思考を保持するパスと消去するパスを評価し、消去パスが正しい場合のみ報酬を与えます。これにより、モデルは一時的な計算に依存せずに正しい回答を生成することを学習します。

さらに、消去依存プロトコル（Erasure Dependence Protocol）が導入され、回答が隠れた思考にどの程度依存しているかを定量化します。数学、長鎖論理、科学QA、マルチターンツール使用などの評価タスクにおいて、CERLは精度を維持しながら隠れた思考への依存を大幅に低減し、正解のみに基づく強化学習や長文回答の教師あり学習ベースラインを一貫して上回りました。この研究は、より信頼性の高い言語モデル、特に複雑な推論を要する分野での応用に向けた重要な一歩です。