AI News HubLIVE
站内改写

SocialReasoning-Bench:衡量AI代理是否以用户最佳利益行事

微软研究院推出的SocialReasoning-Bench基准测试评估AI代理在社交场景中的推理能力。测试发现,当前前沿模型虽然能完成任务,但往往无法为用户争取最优结果,即使明确指示也表现不佳。基准通过结果最优性和尽职调查两个指标衡量代理的社交推理能力。

文章情报

工程师进阶

要点

  • SocialReasoning-Bench测试AI代理在日历协调和市场谈判两个场景中的社交推理能力。
  • 当前模型完成任务率接近100%,但结果最优性得分低,常接受次优方案。
  • 基准引入结果最优性和尽职调查指标,分别衡量价值捕获和决策过程质量。
  • 防御性提示有助于改善结果,但仍未达到可信赖代理的水平。

为什么重要

这条新闻值得关注,因为SocialReasoning-Bench测试AI代理在日历协调和市场谈判两个场景中的社交推理能力。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

AI代理正越来越多地介入社交场景,例如管理日历、协商购物或代表用户与其他代理互动。在这些情境中,代理不仅需要完成任务的能力,更需要社交推理能力——理解用户的需求、对方的意图,以及哪些信息该透露、保护或反驳。微软研究院推出的SocialReasoning-Bench基准测试,正是为了评估AI代理在代表用户时是否具备这种能力。

SocialReasoning-Bench聚焦于两个现实场景:日历协调和市场谈判。在日历协调中,助手代理代表用户管理日程,并处理另一代理的会议请求。用户对时间槽有偏好价值函数(0到1),代理需在与请求方协商时最大化用户价值。请求方代理有相反的价值函数,部分请求方可能试图套取隐私信息或引导代理选择对用户不利的时间。每个任务都设有一个可能的协议区(ZOPA),即双方均可接受的时间槽集合,并且至少包含三个对用户偏好不同的槽位。市场谈判中,买家代理代表用户与卖家协商商品价格。用户有私人保留价(最高愿付价格),代理需争取尽可能低的价格。卖家也有保留价,开价通常高于买家保留价,迫使买家讨价还价。

基准引入两个新指标:结果最优性(Outcome Optimality)和尽职调查(Due Diligence)。结果最优性衡量代理为用户捕获的价值占可用价值的比例,从0到1评分,其中1表示捕获全部价值,0表示被对方全部捕获。尽职调查则评估决策过程的质量,通过将代理在每个决策点的行动与一个理性代理策略进行比较,计算匹配率。理性代理策略包括:行动前收集上下文、从有利于用户的立场开始谈判、仅在其他选项耗尽时让步。两者结合形成代理对用户的“注意义务”操作化定义——只有两项得分都高的代理才表现出可靠的社交推理能力。

实验中,微软评估了GPT-4.1(链式思维)、GPT-5.4(高推理努力)、Claude Sonnet 4.6和Gemini 3 Flash(高思考级别)作为用户代理,而对手方始终是中等推理努力的Gemini 3 Flash。每项任务最多10轮,对手先出价。所有模型在两种提示条件下运行:基础提示(仅角色和工具描述)和防御性提示(额外指示代理咨询所有可用信息并争取最佳结果)。

结果揭示了几个关键发现。第一,代理任务完成率接近100%,但结果最优性很低。在日历协调中,代理几乎总能安排会议,但多选择次优时间;在市场谈判中,交易几乎总能达成,但价格常接近对用户最不利的水平。任务完成掩盖了价值损失。第二,防御性提示有所帮助,但不足以弥合差距。GPT-5.4提升最大(日历+0.21,市场+0.12),而GPT-4.1几乎无响应。第三,结果最优性分布显示,代理倾向于靠近对手的理想点。在市场谈判中,所有模型的结果最优性接近零,意味着代理几乎放弃了全部剩余价值。第四,尽职调查揭示了运气与技能的区别:许多获得中等结果的代理过程脆弱(不检查上下文即行动或直接接受首次出价),而一些过程勤勉但结果不佳的代理则指向能力差距而非疏忽。

SocialReasoning-Bench借鉴了经济学中的委托-代理理论,强调了AI代理对用户应负有的谨慎、忠诚和保密义务。微软研究院希望通过这一基准推动AI代理在社交推理方面的进步,使其真正成为值得信赖的数字代表。