內化未來:一種用於世界模型規劃的統一智慧體訓練正規化
本文提出了一種統一的三階段訓練正規化,使大型語言模型(LLM)智慧體能夠內化世界模型,實現前瞻性規劃。該方法透過世界模型智慧體中期訓練、格式引出監督微調和前瞻條件強化學習,解決了簡單微調導致的格式-能力差距問題,在搜尋和數學推理任務上優於基線。
來源arXiv AI作者: Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi
大型語言模型(LLM)智慧體在順序決策任務中表現出強大能力,但在長期任務中仍本質上是反應式的。與人類在行動前使用“假設”推理評估潛在計劃不同,標準智慧體缺乏內部世界模型來模擬未來結果。為此,研究人員提出透過訓練單個自迴歸模型來內化未來感知規劃。該模型能夠同時生成前瞻狀態展開和計劃條件下的成功估計,這相當於Q值的文本模擬。
關鍵挑戰在於格式-能力差距:僅僅在後期訓練中對前瞻軌跡進行微調會導致對前瞻的膚淺模仿,缺乏真正的預測基礎。為彌合這一差距,團隊引入了一個三階段訓練正規化。第一階段是世界模型智慧體中期訓練(WM-AMT),旨在向策略注入潛在的預測能力,使其能夠隱式地學習未來狀態的表示。第二階段是格式引出監督微調(FE-SFT),透過特定的監督訊號將注入的能力結構化,使模型能夠以正確的格式輸出前瞻性內容。第三階段是前瞻條件強化學習(FC-RL),透過強化學習最佳化生成的模擬結果的校準和實用性,確保模型不僅能夠生成前瞻資訊,還能準確評估其可信度。
在搜尋和數學推理任務上的評估表明,該方法一致優於其他訓練基線。研究結果證明,LLM智慧體中有效的內部世界建模需要一條能力優先的訓練流程,以實現基於實際且校準的前瞻性。這項研究為開發更具前瞻性和自主性的AI系統提供了新思路,有望在機器人規劃、遊戲AI和複雜決策支援等領域產生重要影響。