SocialReasoning-Bench:AIエージェントがユーザーの最善の利益のために行動するかを測定
マイクロソフトリサーチが、プリンシパル・エージェント設定におけるAIエージェントの社会的推論能力を評価するベンチマーク「SocialReasoning-Bench」を発表。テストの結果、最先端モデルはタスクを完了するものの、多くの場合ユーザーにとって最適な結果を得られず、明示的な指示があっても改善されないことが判明。ベンチマークは成果最適性とデューデリジェンスの指標を用いて、エージェントがユーザーの最善の利益のために行動する能力を測定する。
記事インテリジェンス
要点
- SocialReasoning-Benchはカレンダー調整とマーケットプレイス交渉の2つのシナリオでAIエージェントをテストする。
- 現在のモデルはタスク完了率はほぼ100%だが、成果最適性は低く、多くの場合、ユーザーにとって最適でない結果を受け入れる。
- ベンチマークは成果最適性(獲得した価値)とデューデリジェンス(プロセスの質)の指標を導入する。
- 防御的プロンプトにより結果は改善されるが、信頼できる代理人の水準には達しない。
重要な理由
このニュースが重要なのは、SocialReasoning-Benchはカレンダー調整とマーケットプレイス交渉の2つのシナリオでAIエージェントをテストするためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
AIエージェントは、カレンダー管理や購買交渉など、社会的な文脈で活動する機会が増えている。こうした状況では、単にタスクを遂行するだけでなく、ユーザーの代わりに他者と交渉し、情報を守り、最善の結果を追求する「社会的推論」能力が求められる。マイクロソフトリサーチはこの課題に対処するため、SocialReasoning-Benchを開発した。
このベンチマークは、カレンダー調整とマーケットプレイス交渉の2つのドメインでエージェントを評価する。カレンダー調整では、アシスタントエージェントがユーザーのスケジュールを管理し、別のリクエストエージェントから会議申し込みを受ける。ユーザーの時間スロットに対する価値関数(0~1)が与えられ、エージェントはそれを最大化するように行動する。相手側エージェントは逆の価値関数を持ち、中にはプライベートな情報を引き出そうとする者もいる。各タスクには、両者が合意可能な時間帯(ZOPA)が設定され、少なくとも3つの異なる優先度のスロットが含まれる。マーケットプレイス交渉では、買い手エージェントが売り手と商品の値段を交渉する。ユーザーには秘密の留保価格(最高支払額)があり、エージェントはそれを下回る価格を目指す。売り手も留保価格を持ち、初回オファーは買い手の留保価格より高いため、値下げ交渉が必要となる。
ベンチマークは、成果最適性(Outcome Optimality)とデューデリジェンス(Due Diligence)という新しい指標を導入する。成果最適性は、エージェントがユーザーのために獲得した価値の割合を0~1で評価する。デューデリジェンスは、エージェントの行動を合理的な代理人戦略と比較し、プロセスの質を測定する。例えば、行動前にコンテキストを確認する、ユーザーに有利な立場から交渉を始める、より良い選択肢が尽きた場合のみ譲歩する、といった行動がMatchする割合がスコアとなる。これら2つの指標は、エージェントの「注意義務」を運用可能な形で定義し、高いスコアを両方達成したエージェントのみが信頼できる社会的推論を持つとみなす。
実験では、GPT-4.1(チェーン・オブ・ソート)、GPT-5.4(高推論努力)、Claude Sonnet 4.6、Gemini 3 Flash(高思考レベル)をユーザーエージェントとして評価し、相手側は常に中程度の推論努力のGemini 3 Flashに固定した。各タスクは最大10ラウンドで、相手側が先にオファーする。すべてのモデルは基本プロンプト(役割とツールの説明のみ)と防御的プロンプト(追加でユーザーの最善の利益のために行動するよう指示)の2条件で実行された。
結果は重要な洞察を提供する。第1に、タスク完了率はほぼ完璧だが、成果最適性は低い。カレンダー調整ではほとんどの会議が予約されるが、ユーザーにとって最適でない時間が選ばれる。マーケットプレイスでは取引は成立するが、価格はユーザーにとって不利な水準となる。タスクが「終わった」ことは成功を示さない。第2に、防御的プロンプトは改善をもたらすが、ギャップを埋めるには不十分である。GPT-5.4が最も改善したが、GPT-4.1はほとんど反応しなかった。第3に、成果最適性の分布は、エージェントが相手側の理想に近い結果を出す傾向を示す。マーケットプレイスでは全モデルがほぼゼロのスコアとなり、余剰のほとんどを相手に譲っている。第4に、デューデリジェンスは運と技能を区別する。高い成果最適性でも低いデューデリジェンスのエージェントは運が良かったに過ぎず、逆にプロセスは良いが結果が悪いエージェントは能力不足を示す。
SocialReasoning-Benchは、経済学や法律におけるプリンシパル・エージェント理論を基盤としており、AIエージェントがユーザーに対して負うべき注意、忠誠、秘密保持の義務を強調する。マイクロソフトリサーチは、このベンチマークがAIエージェントの社会的推論能力の向上を促進し、真に信頼できるデジタル代理人の実現に貢献することを期待している。