2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 15:50 UTC+8

内化未来：一种用于世界模型规划的统一智能体训练范式

本文提出了一种统一的三阶段训练范式，使大型语言模型（LLM）智能体能够内化世界模型，实现前瞻性规划。该方法通过世界模型智能体中期训练、格式引出监督微调和前瞻条件强化学习，解决了简单微调导致的格式-能力差距问题，在搜索和数学推理任务上优于基线。

来源arXiv AI作者: Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi

大型语言模型（LLM）智能体在顺序决策任务中表现出强大能力，但在长期任务中仍本质上是反应式的。与人类在行动前使用“假设”推理评估潜在计划不同，标准智能体缺乏内部世界模型来模拟未来结果。为此，研究人员提出通过训练单个自回归模型来内化未来感知规划。该模型能够同时生成前瞻状态展开和计划条件下的成功估计，这相当于Q值的文本模拟。

关键挑战在于格式-能力差距：仅仅在后期训练中对前瞻轨迹进行微调会导致对前瞻的肤浅模仿，缺乏真正的预测基础。为弥合这一差距，团队引入了一个三阶段训练范式。第一阶段是世界模型智能体中期训练（WM-AMT），旨在向策略注入潜在的预测能力，使其能够隐式地学习未来状态的表示。第二阶段是格式引出监督微调（FE-SFT），通过特定的监督信号将注入的能力结构化，使模型能够以正确的格式输出前瞻性内容。第三阶段是前瞻条件强化学习（FC-RL），通过强化学习优化生成的模拟结果的校准和实用性，确保模型不仅能够生成前瞻信息，还能准确评估其可信度。

在搜索和数学推理任务上的评估表明，该方法一致优于其他训练基线。研究结果证明，LLM智能体中有效的内部世界建模需要一条能力优先的训练流程，以实现基于实际且校准的前瞻性。这项研究为开发更具前瞻性和自主性的AI系统提供了新思路，有望在机器人规划、游戏AI和复杂决策支持等领域产生重要影响。