AI News HubLIVE
站内改写2 分で読了

適応的潜在エージェント推論

大規模言語モデルエージェントが各決定ステップで冗長なテキスト推論を生成する非効率性に対処するため、研究者は適応的潜在エージェント推論(ALAR)を提案する。これは、ルーチン的なターンではコンパクトな潜在推論を使用し、より深い検討が必要な場合にのみ明示的な連鎖思考に切り替えるデュアルモードフレームワークである。実験では、検索タスクで最大43.6%、ツール使用で84.6%のトークン削減を達成し、タスク精度を維持した。

ソースarXiv Computational Linguistics著者: Dongwon Jung, Peng Shi, Yi Zhang, Junshan Zhang, Muhao Chen

大規模推論モデルは拡張された連鎖思考(CoT)推論を生成することで性能を向上させますが、この振る舞いをLLMエージェントに適用すると非効率になります。現在のLLMエージェントは、各決定ステップで冗長なテキスト推論を生成し、推論の労力をほぼ均等に割り当てるため、マルチターンのエージェント軌道において著しい非効率が生じます。例えば、複雑な検索タスクでは、エージェントが単純なクエリであっても各ステップで詳細な思考過程を記述する必要があり、不要なオーバーヘッドを引き起こします。

この問題に対処するため、研究チームは適応的潜在エージェント推論(Adaptive Latent Agentic Reasoning、略称ALAR)を提案します。ALARはデュアルモードフレームワークであり、ルーチン的なターンではコンパクトな潜在推論を使用し、より深い熟考が必要な場合にのみ明示的な連鎖思考に選択的にエスカレーションします。潜在推論はエージェントの行動を監督アンカーとして学習され、さらに潜在推論がタスク成功に十分である場合に使用し、難しい決定のために明示的CoTを予約するよう最適化されます。具体的には、ALARはゲート機構を用いて現在のステップで潜在推論と明示的CoTのどちらを使用するかを動的に決定します。このゲート機構は現在の状態とタスクコンテキストに基づいて、全体的なトークン消費を最小化しつつタスク成功率を保証するように訓練されています。

エージェント検索およびツール使用ベンチマークでの実験では、ALARは同等以上のタスク精度を維持しながら、生成トークンを検索で最大43.6%、ツール使用で84.6%削減しました。特に複雑なツール組み合わせタスクでは、ALARの精度は純粋なCoT手法よりも2-3パーセントポイント向上し、コストを大幅に削減しました。これらの結果は、ALARが不要なテキスト推論を削減しつつ、難しい決定ステップでは明示的な熟考を保持することで、LLMエージェントの精度と効率のトレードオフを改善することを示しています。

この研究は、特に複雑なマルチターン相互作用を必要とするタスクにおいて、より効率的なAIエージェントシステムを構築するための新しいアプローチを提供します。ALARの可能性は論文でテストされたタスクに限らず、ロボット制御やゲームAIなど、多段階の意思決定が必要な他の分野にも拡張できます。将来的には、潜在推論の解釈可能性やより広範な知能エージェント応用への拡張が期待されます。また、研究チームはALARをReActやToolformerなどの既存のLLMエージェントフレームワークに統合し、実際の展開における効率を向上させることを目指しています。全体として、ALARはより経済的で効率的なAIエージェントを実現するための重要な一歩となります。