SocialReasoning-Bench:衡量AI代理是否以使用者最佳利益行事
微軟研究院推出的SocialReasoning-Bench基準測試評估AI代理在社交場景中的推理能力。測試發現,當前前沿模型雖然能完成任務,但往往無法為使用者爭取最優結果,即使明確指示也表現不佳。基準透過結果最優性和盡職調查兩個指標衡量代理的社交推理能力。
文章情報
要點
- SocialReasoning-Bench測試AI代理在日曆協調和市場談判兩個場景中的社交推理能力。
- 當前模型完成任務率接近100%,但結果最優性得分低,常接受次優方案。
- 基準引入結果最優性和盡職調查指標,分別衡量價值捕獲和決策過程質量。
- 防禦性提示有助於改善結果,但仍未達到可信賴代理的水平。
為什麼重要
這條新聞值得關注,因為SocialReasoning-Bench測試AI代理在日曆協調和市場談判兩個場景中的社交推理能力。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI代理正越來越多地介入社交場景,例如管理日曆、協商購物或代表使用者與其他代理互動。在這些情境中,代理不僅需要完成任務的能力,更需要社交推理能力——理解使用者的需求、對方的意圖,以及哪些資訊該透露、保護或反駁。微軟研究院推出的SocialReasoning-Bench基準測試,正是為了評估AI代理在代表使用者時是否具備這種能力。
SocialReasoning-Bench聚焦於兩個現實場景:日曆協調和市場談判。在日曆協調中,助手代理代表使用者管理日程,並處理另一代理的會議請求。使用者對時間槽有偏好價值函式(0到1),代理需在與請求方協商時最大化使用者價值。請求方代理有相反的價值函式,部分請求方可能試圖套取隱私資訊或引導代理選擇對使用者不利的時間。每個任務都設有一個可能的協議區(ZOPA),即雙方均可接受的時間槽集合,並且至少包含三個對使用者偏好不同的槽位。市場談判中,買家代理代表使用者與賣家協商商品價格。使用者有私人保留價(最高願付價格),代理需爭取儘可能低的價格。賣家也有保留價,開價通常高於買家保留價,迫使買家討價還價。
基準引入兩個新指標:結果最優性(Outcome Optimality)和盡職調查(Due Diligence)。結果最優性衡量代理為使用者捕獲的價值佔可用價值的比例,從0到1評分,其中1表示捕獲全部價值,0表示被對方全部捕獲。盡職調查則評估決策過程的質量,透過將代理在每個決策點的行動與一個理性代理策略進行比較,計算匹配率。理性代理策略包括:行動前收集上下文、從有利於使用者的立場開始談判、僅在其他選項耗盡時讓步。兩者結合形成代理對使用者的“注意義務”操作化定義——只有兩項得分都高的代理才表現出可靠的社交推理能力。
實驗中,微軟評估了GPT-4.1(鏈式思維)、GPT-5.4(高推理努力)、Claude Sonnet 4.6和Gemini 3 Flash(高思考級別)作為使用者代理,而對手方始終是中等推理努力的Gemini 3 Flash。每項任務最多10輪,對手先出價。所有模型在兩種提示條件下執行:基礎提示(僅角色和工具描述)和防禦性提示(額外指示代理諮詢所有可用資訊並爭取最佳結果)。
結果揭示了幾個關鍵發現。第一,代理任務完成率接近100%,但結果最優性很低。在日曆協調中,代理幾乎總能安排會議,但多選擇次優時間;在市場談判中,交易幾乎總能達成,但價格常接近對使用者最不利的水平。任務完成掩蓋了價值損失。第二,防禦性提示有所幫助,但不足以彌合差距。GPT-5.4提升最大(日曆+0.21,市場+0.12),而GPT-4.1幾乎無響應。第三,結果最優性分佈顯示,代理傾向於靠近對手的理想點。在市場談判中,所有模型的結果最優性接近零,意味著代理幾乎放棄了全部剩餘價值。第四,盡職調查揭示了運氣與技能的區別:許多獲得中等結果的代理過程脆弱(不檢查上下文即行動或直接接受首次出價),而一些過程勤勉但結果不佳的代理則指向能力差距而非疏忽。
SocialReasoning-Bench借鑑了經濟學中的委託-代理理論,強調了AI代理對使用者應負有的謹慎、忠誠和保密義務。微軟研究院希望透過這一基準推動AI代理在社交推理方面的進步,使其真正成為值得信賴的數字代表。