AI News HubLIVE
站内改写1 分钟阅读

内化未来:一种用于世界模型规划的统一智能体训练范式

本文提出了一种统一的三阶段训练范式,使大型语言模型(LLM)智能体能够内化世界模型,实现前瞻性规划。该方法通过世界模型智能体中期训练、格式引出监督微调和前瞻条件强化学习,解决了简单微调导致的格式-能力差距问题,在搜索和数学推理任务上优于基线。

来源arXiv AI作者: Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi

大型语言模型(LLM)智能体在顺序决策任务中表现出强大能力,但在长期任务中仍本质上是反应式的。与人类在行动前使用“假设”推理评估潜在计划不同,标准智能体缺乏内部世界模型来模拟未来结果。为此,研究人员提出通过训练单个自回归模型来内化未来感知规划。该模型能够同时生成前瞻状态展开和计划条件下的成功估计,这相当于Q值的文本模拟。

关键挑战在于格式-能力差距:仅仅在后期训练中对前瞻轨迹进行微调会导致对前瞻的肤浅模仿,缺乏真正的预测基础。为弥合这一差距,团队引入了一个三阶段训练范式。第一阶段是世界模型智能体中期训练(WM-AMT),旨在向策略注入潜在的预测能力,使其能够隐式地学习未来状态的表示。第二阶段是格式引出监督微调(FE-SFT),通过特定的监督信号将注入的能力结构化,使模型能够以正确的格式输出前瞻性内容。第三阶段是前瞻条件强化学习(FC-RL),通过强化学习优化生成的模拟结果的校准和实用性,确保模型不仅能够生成前瞻信息,还能准确评估其可信度。

在搜索和数学推理任务上的评估表明,该方法一致优于其他训练基线。研究结果证明,LLM智能体中有效的内部世界建模需要一条能力优先的训练流程,以实现基于实际且校准的前瞻性。这项研究为开发更具前瞻性和自主性的AI系统提供了新思路,有望在机器人规划、游戏AI和复杂决策支持等领域产生重要影响。