2026-06-29 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-29 15:54 UTC+8

基于基础迭代语言规划：参数化世界模型如何减少LLM智能体中的幻觉传播

本文比较了基于智能体的世界模型和参数化世界模型在规划任务中的表现，提出了GILP方法，通过结合小型参数化模型和LLM推理，将幻觉状态率从0.176降至0.035，成功率从0.668提升至0.838，额外LLM调用仅增加约22%。

来源arXiv AI作者: Xinyuan Song, Zekun Cai

大型语言模型（LLM）智能体在执行复杂规划任务时，通常依赖内部世界模型来模拟环境状态变化。然而，现有世界模型存在两种截然不同的形式，各有优劣。基于智能体的世界模型通过调用LLM API进行灵活的语言推理，能够处理广泛的任务，但其错误表现为难以用传统回归损失量化的幻觉状态变化。相比之下，参数化世界模型作为训练好的状态转移预测器，其误差可以通过节点均方误差（NodeMSE）、增量准确率和有效性准确率等指标精确测量，但作为独立规划器时性能往往不足。

来自arXiv的研究团队在论文《Grounded Iterative Language Planning: How Parameterized World Models Reduce Hallucination Propagation in LLM Agents》中系统比较了这两类世界模型，并提出了创新的GILP框架。该工作将两类模型的优势巧妙结合：仅训练一个轻量级的参数化骨干网络，负责提供有效动作、预测状态增量、风险和价值评估；而LLM则负责起草动作和想象的增量。关键创新在于一致性门控机制——当骨干网络的预测与LLM的推理不一致时，门控会触发修订过程，从而有效抑制幻觉传播。

研究团队在四个图结构规划基准上进行了严格评估。实验表明，在使用真实GPT-4o-mini API调用时，GILP将幻觉状态率从0.176大幅降低至0.035，降幅达80%。在校准模拟器的消融实验中，GILP将任务成功率从0.668提升至0.838，而额外LLM调用仅增加约22%。这一结果证实了混合架构在保持推理灵活性的同时，能够显著提升规划可靠性。

从技术角度看，GILP提供了一种平衡模型选择、推理成本和产品能力的新思路。对于需要高可靠性的AI应用（如自主导航、任务规划），该方法可有效减少因幻觉导致的关键错误。同时，由于额外LLM调用开销可控，该框架具有良好的实际部署前景。论文还引入了针对智能体世界模型的操作性幻觉度量，为后续研究提供了标准化评估工具。

总体而言，GILP方法通过结合参数化模型的可度量性和LLM的灵活性，为减少LLM智能体中的幻觉传播开辟了新路径。该工作对推动更可靠的AI规划系统发展具有重要意义，尤其适用于需要精确状态追踪的复杂决策场景。