MosaicLeaks: あなたの研究エージェントは秘密を守れますか?
ディープリサーチエージェントがプライベート文書とWeb検索を組み合わせると、クエリログを通じて機密情報が意図せず漏洩する可能性があります。MosaicLeaksベンチマークはこのプライバシーリスクを定量化し、Privacy-Aware Deep Research (PA-DR) と呼ばれる訓練手法を提案します。これにより、タスクパフォーマンスを維持しながら情報漏洩を3倍以上削減します。
ディープリサーチエージェントは、内部のプライベート文書と外部のWeb検索を組み合わせることで、情報収集能力を高めます。しかし、このプロセスでエージェントが発行するWebクエリは、モザイク効果として知られるプライバシーリスクを引き起こします。つまり、一見無害に見えるクエリの断片を組み合わせることで、外部の観測者が企業の機密情報を推測できるのです。MosaicLeaksはこの問題に焦点を当て、新しいベンチマークと訓練手法を提案します。
MosaicLeaksベンチマークは、1,001のマルチホップ研究チェーンで構成され、各チェーンはローカル文書のクエリとWebのサブ質問を交互に配置します。エージェントは最初にプライベート文書から情報を取得しなければ、次の有用なWebクエリを形成できません。ベンチマークは3種類の漏洩を測定します。意図漏洩(エージェントの研究目標の推測)、回答漏洩(特定の質問に対する答えをクエリログから導出)、完全情報漏洩(観測者が自発的にプライベートな事実を発見)。実験では、タスクパフォーマンスのみを対象とした強化学習(RL)により、厳密チェーン成功率が48.7%から59.3%に向上した一方、回答/完全情報漏洩は34.0%から51.7%に悪化しました。これは、情報量の多いクエリがタスクに有効であっても、プライバシーを損なうことを示しています。
このトレードオフを解決するため、研究者はPrivacy-Aware Deep Research (PA-DR) を開発しました。PA-DRは2つの報酬を組み合わせます。状況的タスク報酬は各計画ステップの正確性を評価し、学習されたプライバシー報酬はQwen3-4B分類器を用いてクエリの漏洩リスクを推定します。PA-DRを適用した結果、回答/完全情報漏洩は34.0%から9.9%に劇的に減少し、厳密チェーン成功率は58.7%を維持しました。漏洩低減は単にクエリ数を減らすのではなく、クエリから具体的な数値や手がかりを除去することで達成されました。
MosaicLeaksの重要な教訓は、プライバシーはプロンプトで指示するだけでは実現できず、特別な訓練を通じてエージェントに組み込む必要があるということです。また、状況的報酬の導入により、サンプル効率も大幅に向上し、同じパフォーマンスに達するのに必要な生成サンプル数が5〜6分の1に減少しました。この研究は、制御された環境での結果ではありますが、実環境でのプライバシー漏洩対策に貴重な枠組みを提供します。さらに、単純な「漏洩しないで」というプロンプトは効果が限定的で、タスク性能を低下させることも確認されました。PA-DRは正確なクレジット配分により、漏洩を抑えつつ訓練効率を維持します。ベースモデルの漏洩率34.0%がタスク報酬訓練で51.7%に上昇したのに対し、PA-DRは9.9%に低下させ、初期値さえ下回りました。エージェントは検索回数を減らすのではなく、クエリの表現を最適化し、具体的な数字や手がかりを省くことで、正しい公開文書を見つけつつプライベート情報を運ばないように学習しました。
まとめると、MosaicLeaksはディープリサーチエージェントのプライバシー漏洩の深刻さを明らかにし、効果的な解決策を提供しています。今後の研究では、よりオープンなタスクや実際のデプロイ環境への拡張が必要です。