2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 15:50 UTC+8

內化未來：一種用於世界模型規劃的統一智慧體訓練正規化

本文提出了一種統一的三階段訓練正規化，使大型語言模型（LLM）智慧體能夠內化世界模型，實現前瞻性規劃。該方法透過世界模型智慧體中期訓練、格式引出監督微調和前瞻條件強化學習，解決了簡單微調導致的格式-能力差距問題，在搜尋和數學推理任務上優於基線。

來源arXiv AI作者: Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi

大型語言模型（LLM）智慧體在順序決策任務中表現出強大能力，但在長期任務中仍本質上是反應式的。與人類在行動前使用“假設”推理評估潛在計劃不同，標準智慧體缺乏內部世界模型來模擬未來結果。為此，研究人員提出透過訓練單個自迴歸模型來內化未來感知規劃。該模型能夠同時生成前瞻狀態展開和計劃條件下的成功估計，這相當於Q值的文本模擬。

關鍵挑戰在於格式-能力差距：僅僅在後期訓練中對前瞻軌跡進行微調會導致對前瞻的膚淺模仿，缺乏真正的預測基礎。為彌合這一差距，團隊引入了一個三階段訓練正規化。第一階段是世界模型智慧體中期訓練（WM-AMT），旨在向策略注入潛在的預測能力，使其能夠隱式地學習未來狀態的表示。第二階段是格式引出監督微調（FE-SFT），透過特定的監督訊號將注入的能力結構化，使模型能夠以正確的格式輸出前瞻性內容。第三階段是前瞻條件強化學習（FC-RL），透過強化學習最佳化生成的模擬結果的校準和實用性，確保模型不僅能夠生成前瞻資訊，還能準確評估其可信度。

在搜尋和數學推理任務上的評估表明，該方法一致優於其他訓練基線。研究結果證明，LLM智慧體中有效的內部世界建模需要一條能力優先的訓練流程，以實現基於實際且校準的前瞻性。這項研究為開發更具前瞻性和自主性的AI系統提供了新思路，有望在機器人規劃、遊戲AI和複雜決策支援等領域產生重要影響。