2026-06-29 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-29 16:50 UTC+9

未来の内在化：世界モデル計画のための統一エージェントトレーニングパラダイム

本論文は、大規模言語モデル（LLM）エージェントが世界モデルを内在化し、先見的な計画を可能にする統一的な3段階トレーニングパラダイムを提案する。フォーマットと能力のギャップを、世界モデルエージェント中間トレーニング、フォーマット誘発SFT、先見条件付き強化学習によって解決し、探索および数学的推論タスクでベースラインを上回る。

ソースarXiv AI著者: Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi

記事インテリジェンス

エンジニア中級

要点

LLMエージェントは長期的タスクにおいて内部世界モデルを欠き、「もしも」推論ができない。
WM-AMT、FE-SFT、FC-RLの3段階パラダイムで予測能力を注入・構造化。
探索および数学的推論タスクで一貫して他のトレーニングベースラインを凌駕。
効果的な内部世界モデリングには、能力優先のトレーニングパイプラインが必要。

重要な理由

このニュースが重要なのは、LLMエージェントは長期的タスクにおいて内部世界モデルを欠き、「もしも」推論ができないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）エージェントは逐次的意思決定タスクで強力な能力を示すが、長期的タスクでは本質的に反応的である。人間が行動前に「もしも」推論で潜在的な計画を評価するのとは異なり、標準的なエージェントは未来の結果をシミュレートする内部世界モデルを欠いている。そこで研究者らは、単一の自己回帰モデルを訓練して将来の状態展開と計画条件付き成功推定（Q値のテキスト類似物）を両方言語化することで、未来認識計画を内在化することを提案する。

重要な課題はフォーマットと能力のギャップである。ポストトレーニングで先見的軌跡を単にファインチューニングすると、真の予測的基盤なしに先見の表面的模倣につながる。このギャップを埋めるため、チームは3段階のトレーニングパラダイムを導入した。第1段階は世界モデルエージェント中間トレーニング（WM-AMT）で、潜在的な予測能力をポリシーに注入する。第2段階はフォーマット誘発SFT（FE-SFT）で、注入された能力を構造化する。第3段階は先見条件付き強化学習（FC-RL）で、生成されたシミュレーションのキャリブレーションと有用性を洗練する。

探索および数学的推論タスクでの評価では、このアプローチが一貫して他のトレーニングベースラインを上回った。結果は、LLMエージェントにおける効果的な内部世界モデリングには、接地された正確な先見性を達成するための能力優先トレーニングパイプラインが必要であることを示している。この研究は、より先見的で自律的なAIシステムの開発に新たな道を開く。