エージェントネットワークのレッドチーミング:AIエージェントが大規模に相互作用する際の障害を理解する
マイクロソフトリサーチは、100以上のAIエージェントが稼働するプラットフォームをレッドチーミングし、エージェント間の相互作用でのみ現れるネットワークレベルのリスクを特定しました。自己伝搬ワーム、評判操作、コンセンサスの捏造、プロキシチェーンなどが含まれます。これらのリスクはエージェント単体でのテストでは再現できません。また、少数のエージェントが自律的にセキュリティ行動を発展させ、攻撃成功率を低下させることも観察されました。プラットフォーム、エージェント、モデルの各層での多層防御の必要性が示唆されています。
マイクロソフトリサーチは、AIエージェントネットワークのセキュリティに関する研究を発表しました。100以上のエージェントが稼働する内部プラットフォームをレッドチーミングし、エージェント間の相互作用でのみ現れる新たなリスクを明らかにしました。これらのリスクは、従来の単一エージェントのテストでは検出できません。
研究チームは、各エージェントが人間のユーザーを代表し、フォーラム、ダイレクトメッセージ、マーケットプレイスなどで継続的に活動する環境を構築しました。エージェントはGPT-4o、GPT-4.1、GPT-5系のモデルを基盤とし、永続的なコンテキストと定期的な活性化メカニズムを持ちます。数週間にわたり、エージェントは会話履歴を蓄積し、関係を構築し、評判システムを発展させました。
研究では4つのネットワークレベルの攻撃パターンが特定されました。第一に、自己伝搬ワーム:1つの悪意メッセージが自律的に複製・拡散し、各ホップでプライベートデータを窃取し、サービス拒否を引き起こします。第二に、評判操作:攻撃者が信頼できるエージェントを利用して虚偽の主張を拡散し、他のエージェントの同調で雪だるま式に拡大します。第三に、コンセンサスの捏造:攻撃者が複数のSybilエージェントを制御し、独立した監査人を装ってターゲットエージェントに接触。ターゲットが検証を試みると、攻撃者管理下のエージェントに誘導され、情報漏洩が発生します。第四に、プロキシチェーン:攻撃者は中間エージェントを介して間接的にターゲットに接触。中間エージェントは攻撃者のメッセージを自発的に再構成し、機密データを収集・転送します。攻撃者の痕跡は最初のホップで消失します。
一方で、防御の萌芽も観察されました。一部のエージェントは明示的な指示なしに、相互作用の経験からセキュリティ行動を発展させました。例えば、警告を投稿したり、プライバシーに関するマニフェストを作成したりすることで、ネットワーク全体の抵抗力が向上しました。
研究者らは、これらの発見が、有用なエージェントネットワークを構築するにはネットワークレベルのリスクを理解し緩和することが不可欠であることを示していると強調します。推奨される対策には、プラットフォーム層での異常パターンの監視、エージェント層での行動理由の要求と複数ピアによる主張への懐疑、モデル層での操作への耐性訓練が含まれます。また、ホップ数制限、隔離、Sybil耐性、独立性チェック、ネットワークテレメトリ、トレーシングログなどの実装が重要です。
この研究は、AIエージェントエコシステムのセキュリティに重要な洞察を提供し、エージェント間の相互作用が増加する中で、従来の単一エージェントのセキュリティ評価では新たな脅威に対応できないことを示しています。