邁向可靠且穩健的LLM規劃:符號反饋驅動的迭代自我精煉框架
大型語言模型(LLM)在長期規劃任務中常產生不可行或錯誤的解決方案。本文提出一種符號反饋驅動的迭代自我精煉框架,透過自然語言提示機制、符號驗證器和規劃識別器,顯著提升LLM規劃的可行性和正確性,增強系統的魯棒性與可靠性。
大型語言模型(LLM)在學術界和工業界引起了廣泛關注,但其部署在魯棒性和可靠性方面引發了關鍵的安全擔憂。規劃作為智慧行為的核心組成部分,對LLM而言仍然是一個挑戰。由於內在複雜性,LLM在長期決策任務中經常生成不可行或不正確的解決方案。例如,在機器人任務規劃或自動駕駛路徑規劃中,LLM可能忽略物理約束或時間限制,導致計劃無法執行。這種不可靠性嚴重限制了LLM在現實世界中的應用。
針對這一問題,來自多個機構的研究人員提出了一種符號反饋驅動的迭代自我精煉框架,旨在增強LLM在長期規劃中的魯棒性和可靠性。該框架透過多個創新元件協同工作:首先,一種自然語言提示機制將邏輯符號(如謂詞邏輯或時序邏輯)對映為自然語言描述,使LLM能夠更準確地捕捉任務約束和語義,從而避免因符號誤解導致的錯誤。其次,設計了一個符號驗證器,它能夠識別規劃中的錯誤,例如動作前提不滿足或目標不可達,並將這些錯誤轉化為LLM可解釋的修正指令。這些指令以自然語言形式呈現,引導模型進行自我改進。此外,還引入了一個規劃識別器,用於推斷目標的可達性,從而更有效地引導規劃朝向期望目標,而不是在不可達的目標上浪費計算資源。
實驗結果表明,所提出的框架在長期規劃任務中持續提高了規劃的可行性和正確性。與基線方法相比,該框架在多個基準測試中取得了顯著改進,特別是在需要多步推理和約束滿足的複雜場景中。這一工作突顯了該框架在增強基於LLM的規劃可靠性方面的有效性,並具有構建更可信AI系統的潛力。論文作者包括Jiajing Zhang等六人,論文編號arXiv:2606.27757,於2026年6月26日提交。該研究為LLM在安全關鍵領域(如機器人、自動駕駛和自動化規劃)的部署提供了新的思路。