未来の内在化:世界モデル計画のための統一エージェントトレーニングパラダイム
本論文は、大規模言語モデル(LLM)エージェントが世界モデルを内在化し、先見的な計画を可能にする統一的な3段階トレーニングパラダイムを提案する。フォーマットと能力のギャップを、世界モデルエージェント中間トレーニング、フォーマット誘発SFT、先見条件付き強化学習によって解決し、探索および数学的推論タスクでベースラインを上回る。
大規模言語モデル(LLM)エージェントは逐次的意思決定タスクで強力な能力を示すが、長期的タスクでは本質的に反応的である。人間が行動前に「もしも」推論で潜在的な計画を評価するのとは異なり、標準的なエージェントは未来の結果をシミュレートする内部世界モデルを欠いている。そこで研究者らは、単一の自己回帰モデルを訓練して将来の状態展開と計画条件付き成功推定(Q値のテキスト類似物)を両方言語化することで、未来認識計画を内在化することを提案する。
重要な課題はフォーマットと能力のギャップである。ポストトレーニングで先見的軌跡を単にファインチューニングすると、真の予測的基盤なしに先見の表面的模倣につながる。このギャップを埋めるため、チームは3段階のトレーニングパラダイムを導入した。第1段階は世界モデルエージェント中間トレーニング(WM-AMT)で、潜在的な予測能力をポリシーに注入する。第2段階はフォーマット誘発SFT(FE-SFT)で、注入された能力を構造化する。第3段階は先見条件付き強化学習(FC-RL)で、生成されたシミュレーションのキャリブレーションと有用性を洗練する。
探索および数学的推論タスクでの評価では、このアプローチが一貫して他のトレーニングベースラインを上回った。結果は、LLMエージェントにおける効果的な内部世界モデリングには、接地された正確な先見性を達成するための能力優先トレーニングパイプラインが必要であることを示している。この研究は、より先見的で自律的なAIシステムの開発に新たな道を開く。