AI News HubLIVE
站内改写1 分鐘閱讀

AI代理之間的信任:測量形成、破裂與恢復,對多代理系統治理的啓示

該研究提出了一種基於代價驗證的行為測量方法,用於量化AI代理之間的信任。在合作生存遊戲中,代理通過減少對可靠隊友的驗證來體現信任。實驗分析了六種前沿模型快照,發現較大的模型(如Claude Opus 4.6、GPT-5.1等)能降低60-85%的驗證,而較小的模型幾乎沒有調整。信任破裂後,恢復速度慢於形成,且失敗聚集會延長懷疑。結果表明,信任傾向可在部署前測量,治理應關注校準而非最大懷疑。

來源arXiv AI作者: Yujiao Chen

隨着語言模型代理越來越多地以團隊形式協作,每個代理都需要判斷對隊友的信任程度。然而,目前缺乏標準化的方法來衡量AI代理之間的信任。一項新研究提出了一種基於代價驗證(costly verification)的行為測量方法,為這一挑戰提供瞭解決方案。

在研究中,代理參與一個合作生存遊戲:檢查隊友的工作會消耗資源,而信任錯誤答案可能導致致命後果。通過比較代理在有記憶和無記憶情況下的驗證行為,減少驗證次數即可作為信任的可觀察指標。利用這一框架,研究人員分析了六種前沿模型快照的信任形成、破裂與恢復過程。

實驗結果顯示,當與始終可靠的隊友配對時,Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro四個模型將驗證次數減少了約60-85%,而兩個較小的模型幾乎沒有任何調整。當隊友出現失敗時,信任折扣會被逆轉,但不同模型反應各異:有的集中審查出錯的隊友,有的則對整個團隊更加謹慎。

信任恢復比形成更慢,而集中發生的失敗比分散的相同次數失敗導致的懷疑持續時間更長。這些差異具有實際意義:能夠形成信任的模型驗證更少、決策更快,並在環境中獲得更高收益。相反,持續的過度驗證與決策遲疑相關,而非安全提升。

這項研究的意義在於,信任傾向可以在部署前進行測量,併為多代理AI系統的治理提供了新思路:核心關注點應是信任校準(calibration),而非最大程度的懷疑。論文由Yujiao Chen撰寫,以arXiv預印本形式發佈(arXiv:2606.14923)。