2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

状态承诺学习：训练语言模型区分计算与记忆

该研究提出状态承诺学习，通过反事实擦除强化学习（CERL）训练语言模型区分临时计算与持久状态，在不牺牲准确性的前提下减少答案对隐藏思维的依赖。

来源arXiv Machine Learning作者: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang

文章情报

投资人进阶

要点

语言模型在推理时生成的所有隐藏思维都会进入上下文，导致后续推理可能依赖失败的尝试和错误。
提出状态承诺学习目标，训练模型区分应保留的持久状态和可丢弃的临时计算。
反事实擦除强化学习（CERL）通过比较保留和擦除隐藏思维路径的奖励，迫使模型在擦除路径上保持正确。
实验表明CERL在数学、逻辑、科学问答和多轮工具使用中显著降低对隐藏思维的依赖，性能优于其他基线。

为什么重要

这条新闻值得关注，因为语言模型在推理时生成的所有隐藏思维都会进入上下文，导致后续推理可能依赖失败的尝试和错误。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

语言模型在推理时，会将生成的所有隐藏思维（hidden thoughts）保留在上下文中，这些思维包括失败的尝试、死胡同以及私密的草稿。这种机制可能导致下游推理依赖于本应丢弃的临时计算，而非真正可靠的持久状态。为了应对这一挑战，研究人员提出了状态承诺学习（state commitment learning），旨在训练模型明确区分哪些信息应作为持久状态保留，哪些是临时计算可以丢弃。

该研究的核心贡献包括定义了一个反事实准则——持久状态充分性（persistent-state sufficiency），该准则使得“在擦除隐藏思维后答案是否仍然可用”成为可训练和可衡量的目标。基于此，团队提出了反事实擦除强化学习（Counterfactual Erasure RL, CERL）。CERL在相同前缀下同时评估保留隐藏思维和擦除隐藏思维两条路径，并仅当擦除路径正确时给予奖励，从而迫使模型不依赖临时计算。

此外，研究者还引入了擦除依赖协议（Erasure Dependence Protocol）来量化答案对隐藏思维的依赖程度。在数学、长链逻辑、科学问答和多轮工具使用等任务的评估中，CERL显著减少了答案对隐藏思维的依赖，同时保持了准确性，优于仅基于正确性的强化学习和长答案监督式微调基线。这项工作为构建更可靠的语言模型提供了新方向，尤其在复杂推理场景中具有重要应用价值。