エージェントは何を言うべきか?効率的なマルチエージェントシステムのための行動状態通信
LLMベースのマルチエージェントシステムでは自由形式の通信がトークン消費を増大させる。本論文は5つの通信戦略を分析し、PACTプロトコルを提案。エージェント出力をコンパクトな行動状態記録に変換し、コーディングタスクで性能とコストのトレードオフを改善する。
Chen Huang、Yuhao Wu、Wenxuan Zhangの共著による研究論文「What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems」がarXivで公開されました。本論文では、大規模言語モデル(LLM)を基盤とするマルチエージェントシステム(MAS)におけるエージェント間通信の効率化に焦点を当て、新たなプロトコル「PACT(Protocolized Action-state Communication and Transmission)」を提案しています。
現在のMASでは、エージェントは役割、パイプライン、ターンスケジュールに従って組織されることが一般的ですが、エージェント間でやり取りされるメッセージの内容は多くの場合、制約のない自然言語に任されています。この自由形式の通信は、トークン使用量を急激に増加させ、共有コンテキストウィンドウを圧迫し、システム性能と推論コストに悪影響を及ぼします。著者らはまず、2種類のMASトポロジーにおける5つの一般的なエージェント間通信戦略を分析し、どの固定戦略も普遍的に最適ではないことを明らかにしました。むしろ、効果的なメッセージは下流エージェントが必要とする行動中心の情報を一貫して保持していることを発見しました。
この知見に基づき、PACTプロトコルが提案されました。PACTはエージェント間通信を公開状態更新問題として捉え、各エージェントの生の出力を、共有履歴に追加される前にコンパクトな行動状態記録に変換します。これにより、タスク実行に必要な情報を保持しつつ、通信内容を大幅に圧縮します。
実験は様々なMASトポロジーで実施され、PACTが一貫して性能とコストのトレードオフを改善することを示しました。トークン使用量を大幅に削減しながら、同等以上のタスク性能を達成しました。特に実際のコーディングタスクでは、PACTはOpenHandsにおいて解決あたりのトークン消費を10%削減し、SWE-agentでは解決率を維持したまま入力トークンを半減させました。
本研究はMASの通信設計に重要な理論的指針を提供するとともに、実際のアプリケーションでのPACTの有効性を実証しています。コードはGitHubで公開されており、今後の研究と応用が期待されます。