AI News HubLIVE
站内改写2 分で読了

マルチエージェントシステムの構築方法とタイミング

本記事は、一見相反する2つのブログ記事(Cognitionチームの「マルチエージェントを構築するな」とAnthropicチームの「マルチエージェント研究システムの構築方法」)を分析し、それらが多くの共通点を持ち、マルチエージェントシステムをいつ、どのように構築するかについての洞察を提供することを示します。重要なポイントは、コンテキストエンジニアリングの重要性、「読む」主体のシステムが「書く」主体のものより容易であること、そして本番環境での信頼性とエンジニアリングの課題です。また、LangGraphやLangSmithなどのツールがこれらの課題にどう対処するかについても触れています。

最近、2つのブログ記事がマルチエージェントシステムに関する議論を引き起こしました。Cognitionチームによる「マルチエージェントを構築するな」と、Anthropicチームによる「マルチエージェント研究システムの構築方法」です。一見対立するタイトルですが、これらはいつ、どのようにマルチエージェントアーキテクチャを効果的に使うかについて多くの共通した洞察を共有しています。

まず、コンテキストエンジニアリングが成功の鍵です。Cognitionの記事はこの概念を強調し、最も賢いモデルでも適切な文脈なしでは効果的に機能しないと述べています。従来の「プロンプトエンジニアリング」は「コンテキストエンジニアリング」へと進化し、エンジニアは動的システム内で各サブエージェントに正しい背景情報を自動的に提供する必要があります。Anthropicの記事はこの用語を明示的には使いませんが、長期対話管理、サブタスク記述、コンテキスト圧縮などの問題に同様に注目しています。例えば、研究が長時間にわたる場合、インテリジェントな要約と外部ストレージを使用してコンテキストの一貫性を維持する方法を説明しています。

次に、マルチエージェントシステムは「読む」タスクにおいて「書く」タスクよりも管理が容易です。Cognitionのコーディングシステムは多くの書き込み操作を含み、サブエージェント間で競合が発生しやすくなります。「アクションは暗黙の決定を伴い、競合する決定は悪い結果をもたらす」からです。一方、Anthropicの研究システムは主に読み取り操作(検索や情報収集)に依存し、最終報告書は単一のエージェントによって統一的に作成されます。これは、書き込み操作を並列化する場合、調整と統合の複雑さが急増することを示しています。

本番環境では、マルチエージェントシステムはさらに多くのエンジニアリング課題に直面します。Anthropicの記事は、永続実行、エラー処理、デバッグ、可観測性などの問題を挙げています。例えば、エージェントが長時間実行されると、小さなエラーが蓄積して深刻な問題になる可能性があり、単に最初から再起動することはできません。そのため、フレームワークは永続実行をサポートし、エラーが発生した場合に中断箇所から再開できる必要があります。さらに、エージェントの非決定的な動作によりデバッグが困難になるため、問題を診断するための包括的なトレースと可観測性ツールが必要です。

評価も重要な側面です。Anthropicは、少ないデータポイント(20程度)から始め、LLMを判定者として使用して自動スコアリングを行い、人間によるテストも維持することを推奨しています。これは、データセット管理、LLM判定、人間によるアノテーションキューなどの機能を提供するLangSmithの評価方法論と一致しています。

結論として、マルチエージェントシステムは万能薬ではありません。並列化が必要で、単一コンテキストウィンドウを超える情報を扱い、多数の複雑なツールとインターフェースする高価値のタスクに最も適しています。コーディングのように依存関係が多いタスクでは、現在のマルチエージェント技術は理想的ではありません。したがって、フレームワークは開発者がシングルエージェントとマルチエージェントの間を柔軟に切り替えられるようにする必要があり、LangGraphはそのために設計されています。同時に、LangGraphやLangSmithのようなツールは、永続実行、デバッグ、可観測性、評価といった汎用的な機能を提供し、開発者がビジネスロジックに集中できるようにします。