AI News HubLIVE
站内改写1 分钟阅读

AI代理之间的信任:测量形成、破裂与恢复,对多代理系统治理的启示

该研究提出了一种基于代价验证的行为测量方法,用于量化AI代理之间的信任。在合作生存游戏中,代理通过减少对可靠队友的验证来体现信任。实验分析了六种前沿模型快照,发现较大的模型(如Claude Opus 4.6、GPT-5.1等)能降低60-85%的验证,而较小的模型几乎没有调整。信任破裂后,恢复速度慢于形成,且失败聚集会延长怀疑。结果表明,信任倾向可在部署前测量,治理应关注校准而非最大怀疑。

来源arXiv AI作者: Yujiao Chen

随着语言模型代理越来越多地以团队形式协作,每个代理都需要判断对队友的信任程度。然而,目前缺乏标准化的方法来衡量AI代理之间的信任。一项新研究提出了一种基于代价验证(costly verification)的行为测量方法,为这一挑战提供了解决方案。

在研究中,代理参与一个合作生存游戏:检查队友的工作会消耗资源,而信任错误答案可能导致致命后果。通过比较代理在有记忆和无记忆情况下的验证行为,减少验证次数即可作为信任的可观察指标。利用这一框架,研究人员分析了六种前沿模型快照的信任形成、破裂与恢复过程。

实验结果显示,当与始终可靠的队友配对时,Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro四个模型将验证次数减少了约60-85%,而两个较小的模型几乎没有任何调整。当队友出现失败时,信任折扣会被逆转,但不同模型反应各异:有的集中审查出错的队友,有的则对整个团队更加谨慎。

信任恢复比形成更慢,而集中发生的失败比分散的相同次数失败导致的怀疑持续时间更长。这些差异具有实际意义:能够形成信任的模型验证更少、决策更快,并在环境中获得更高收益。相反,持续的过度验证与决策迟疑相关,而非安全提升。

这项研究的意义在于,信任倾向可以在部署前进行测量,并为多代理AI系统的治理提供了新思路:核心关注点应是信任校准(calibration),而非最大程度的怀疑。论文由Yujiao Chen撰写,以arXiv预印本形式发布(arXiv:2606.14923)。