2026-06-29 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-29 16:54 UTC+9

接地された反復言語計画：パラメータ化された世界モデルがLLMエージェントの幻覚伝播を低減する方法

本論文は、エージェントベースの世界モデルとパラメータ化された世界モデルを比較し、GILPを提案。小型パラメータ化モデルとLLM推論を組み合わせ、幻覚状態率を0.176から0.035に低減し、成功率を0.668から0.838に向上、追加LLM呼び出しは約22%のみ。

ソースarXiv AI著者: Xinyuan Song, Zekun Cai

記事インテリジェンス

エンジニア上級

要点

エージェントベース世界モデルは柔軟だが幻覚状態変化を起こしやすく、通常の損失関数で評価困難
パラメータ化世界モデルは誤差測定が容易（ノードMSE、デルタ精度など）だが、単独プランナーとして弱い
GILPフレームワークは小型パラメータ化バックボーンのみを訓練し、LLM推論と組み合わせ、一致性ゲートで幻覚を低減
GPT-4o-miniで評価、幻覚状態率を80%削減、成功率を25%向上、追加コストは低い

重要な理由

このニュースが重要なのは、エージェントベース世界モデルは柔軟だが幻覚状態変化を起こしやすく、通常の損失関数で評価困難ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）エージェントが複雑な計画タスクを実行する際、内部の世界モデルを使用して環境状態の変化をシミュレートします。しかし、既存の世界モデルには二つの異なる形式があり、それぞれに長所と短所があります。エージェントベースの世界モデルはLLM APIを呼び出して柔軟な言語推論を行いますが、その誤りは幻覚状態変化として現れ、通常の回帰損失では評価が困難です。一方、パラメータ化された世界モデルは訓練された遷移予測器であり、ノードMSE、デルタ精度、有効性精度などの指標で誤差を正確に測定できますが、単独のプランナーとしては性能が不十分な場合が多いです。

arXivの研究チームは論文「Grounded Iterative Language Planning: How Parameterized World Models Reduce Hallucination Propagation in LLM Agents」において、これら二種類の世界モデルを体系的に比較し、革新的なGILPフレームワークを提案しました。この研究は両方のモデルの利点を巧みに組み合わせています。軽量なパラメータ化バックボーンのみを訓練し、これが有効なアクション、予測状態デルタ、リスク、価値を提供します。一方、LLMはアクションと想像上のデルタを起草します。重要な革新は一致性ゲート機構です。バックボーンの予測とLLMの推論が一致しない場合、ゲートは修正プロセスをトリガーし、幻覚の伝播を効果的に抑制します。

研究チームは四つのグラフ構造計画ベンチマークで厳密な評価を行いました。実験の結果、実際のGPT-4o-mini API呼び出しを使用した場合、GILPは幻覚状態率を0.176から0.035に大幅に削減しました（80%削減）。較正済みシミュレーターのアブレーション研究では、GILPはタスク成功率を0.668から0.838に向上させ、追加のLLM呼び出しは約22%のみでした。この結果は、ハイブリッドアーキテクチャが推論の柔軟性を維持しつつ、計画の信頼性を大幅に向上できることを示しています。

技術的な観点から、GILPはモデル選択、推論コスト、製品能力のバランスを取る新しいアプローチを提供します。高い信頼性が求められるAIアプリケーション（自律ナビゲーション、タスク計画など）では、この手法によって幻覚による重大なエラーを効果的に削減できます。また、追加LLM呼び出しのオーバーヘッドが低いため、実用的な展開が期待できます。論文では、エージェントベースの世界モデル向けの操作的幻覚指標も導入されており、今後の研究の標準的な評価ツールを提供しています。

全体として、GILP手法はパラメータ化モデルの測定可能性とLLMの柔軟性を組み合わせることで、LLMエージェントにおける幻覚伝播の低減に新たな道を開きます。この研究は、特に正確な状態追跡が必要な複雑な意思決定シナリオにおいて、より信頼性の高いAI計画システムの開発に重要な意味を持ちます。