迈向可靠且稳健的LLM规划:符号反馈驱动的迭代自我精炼框架
大型语言模型(LLM)在长期规划任务中常产生不可行或错误的解决方案。本文提出一种符号反馈驱动的迭代自我精炼框架,通过自然语言提示机制、符号验证器和规划识别器,显著提升LLM规划的可行性和正确性,增强系统的鲁棒性与可靠性。
大型语言模型(LLM)在学术界和工业界引起了广泛关注,但其部署在鲁棒性和可靠性方面引发了关键的安全担忧。规划作为智能行为的核心组成部分,对LLM而言仍然是一个挑战。由于内在复杂性,LLM在长期决策任务中经常生成不可行或不正确的解决方案。例如,在机器人任务规划或自动驾驶路径规划中,LLM可能忽略物理约束或时间限制,导致计划无法执行。这种不可靠性严重限制了LLM在现实世界中的应用。
针对这一问题,来自多个机构的研究人员提出了一种符号反馈驱动的迭代自我精炼框架,旨在增强LLM在长期规划中的鲁棒性和可靠性。该框架通过多个创新组件协同工作:首先,一种自然语言提示机制将逻辑符号(如谓词逻辑或时序逻辑)映射为自然语言描述,使LLM能够更准确地捕捉任务约束和语义,从而避免因符号误解导致的错误。其次,设计了一个符号验证器,它能够识别规划中的错误,例如动作前提不满足或目标不可达,并将这些错误转化为LLM可解释的修正指令。这些指令以自然语言形式呈现,引导模型进行自我改进。此外,还引入了一个规划识别器,用于推断目标的可达性,从而更有效地引导规划朝向期望目标,而不是在不可达的目标上浪费计算资源。
实验结果表明,所提出的框架在长期规划任务中持续提高了规划的可行性和正确性。与基线方法相比,该框架在多个基准测试中取得了显著改进,特别是在需要多步推理和约束满足的复杂场景中。这一工作突显了该框架在增强基于LLM的规划可靠性方面的有效性,并具有构建更可信AI系统的潜力。论文作者包括Jiajing Zhang等六人,论文编号arXiv:2606.27757,于2026年6月26日提交。该研究为LLM在安全关键领域(如机器人、自动驾驶和自动化规划)的部署提供了新的思路。