AI News HubLIVE
站内改写1 分钟阅读

状态承诺学习:训练语言模型区分计算与记忆

该研究提出状态承诺学习,通过反事实擦除强化学习(CERL)训练语言模型区分临时计算与持久状态,在不牺牲准确性的前提下减少答案对隐藏思维的依赖。

来源arXiv Machine Learning作者: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang

语言模型在推理时,会将生成的所有隐藏思维(hidden thoughts)保留在上下文中,这些思维包括失败的尝试、死胡同以及私密的草稿。这种机制可能导致下游推理依赖于本应丢弃的临时计算,而非真正可靠的持久状态。为了应对这一挑战,研究人员提出了状态承诺学习(state commitment learning),旨在训练模型明确区分哪些信息应作为持久状态保留,哪些是临时计算可以丢弃。

该研究的核心贡献包括定义了一个反事实准则——持久状态充分性(persistent-state sufficiency),该准则使得“在擦除隐藏思维后答案是否仍然可用”成为可训练和可衡量的目标。基于此,团队提出了反事实擦除强化学习(Counterfactual Erasure RL, CERL)。CERL在相同前缀下同时评估保留隐藏思维和擦除隐藏思维两条路径,并仅当擦除路径正确时给予奖励,从而迫使模型不依赖临时计算。

此外,研究者还引入了擦除依赖协议(Erasure Dependence Protocol)来量化答案对隐藏思维的依赖程度。在数学、长链逻辑、科学问答和多轮工具使用等任务的评估中,CERL显著减少了答案对隐藏思维的依赖,同时保持了准确性,优于仅基于正确性的强化学习和长答案监督式微调基线。这项工作为构建更可靠的语言模型提供了新方向,尤其在复杂推理场景中具有重要应用价值。