2026-06-16站内改写1 分钟阅读更新: 2026-06-16

AI代理之间的信任：测量形成、破裂与恢复，对多代理系统治理的启示

该研究提出了一种基于代价验证的行为测量方法，用于量化AI代理之间的信任。在合作生存游戏中，代理通过减少对可靠队友的验证来体现信任。实验分析了六种前沿模型快照，发现较大的模型（如Claude Opus 4.6、GPT-5.1等）能降低60-85%的验证，而较小的模型几乎没有调整。信任破裂后，恢复速度慢于形成，且失败聚集会延长怀疑。结果表明，信任倾向可在部署前测量，治理应关注校准而非最大怀疑。

来源arXiv AI作者: Yujiao Chen

随着语言模型代理越来越多地以团队形式协作，每个代理都需要判断对队友的信任程度。然而，目前缺乏标准化的方法来衡量AI代理之间的信任。一项新研究提出了一种基于代价验证（costly verification）的行为测量方法，为这一挑战提供了解决方案。

在研究中，代理参与一个合作生存游戏：检查队友的工作会消耗资源，而信任错误答案可能导致致命后果。通过比较代理在有记忆和无记忆情况下的验证行为，减少验证次数即可作为信任的可观察指标。利用这一框架，研究人员分析了六种前沿模型快照的信任形成、破裂与恢复过程。

实验结果显示，当与始终可靠的队友配对时，Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro四个模型将验证次数减少了约60-85%，而两个较小的模型几乎没有任何调整。当队友出现失败时，信任折扣会被逆转，但不同模型反应各异：有的集中审查出错的队友，有的则对整个团队更加谨慎。

信任恢复比形成更慢，而集中发生的失败比分散的相同次数失败导致的怀疑持续时间更长。这些差异具有实际意义：能够形成信任的模型验证更少、决策更快，并在环境中获得更高收益。相反，持续的过度验证与决策迟疑相关，而非安全提升。

这项研究的意义在于，信任倾向可以在部署前进行测量，并为多代理AI系统的治理提供了新思路：核心关注点应是信任校准（calibration），而非最大程度的怀疑。论文由Yujiao Chen撰写，以arXiv预印本形式发布（arXiv:2606.14923）。