2026-06-16站内改写1 分鐘閱讀更新: 2026-06-16

AI代理之間的信任：測量形成、破裂與恢復，對多代理系統治理的啓示

該研究提出了一種基於代價驗證的行為測量方法，用於量化AI代理之間的信任。在合作生存遊戲中，代理通過減少對可靠隊友的驗證來體現信任。實驗分析了六種前沿模型快照，發現較大的模型（如Claude Opus 4.6、GPT-5.1等）能降低60-85%的驗證，而較小的模型幾乎沒有調整。信任破裂後，恢復速度慢於形成，且失敗聚集會延長懷疑。結果表明，信任傾向可在部署前測量，治理應關注校準而非最大懷疑。

來源arXiv AI作者: Yujiao Chen

隨着語言模型代理越來越多地以團隊形式協作，每個代理都需要判斷對隊友的信任程度。然而，目前缺乏標準化的方法來衡量AI代理之間的信任。一項新研究提出了一種基於代價驗證（costly verification）的行為測量方法，為這一挑戰提供瞭解決方案。

在研究中，代理參與一個合作生存遊戲：檢查隊友的工作會消耗資源，而信任錯誤答案可能導致致命後果。通過比較代理在有記憶和無記憶情況下的驗證行為，減少驗證次數即可作為信任的可觀察指標。利用這一框架，研究人員分析了六種前沿模型快照的信任形成、破裂與恢復過程。

實驗結果顯示，當與始終可靠的隊友配對時，Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro四個模型將驗證次數減少了約60-85%，而兩個較小的模型幾乎沒有任何調整。當隊友出現失敗時，信任折扣會被逆轉，但不同模型反應各異：有的集中審查出錯的隊友，有的則對整個團隊更加謹慎。

信任恢復比形成更慢，而集中發生的失敗比分散的相同次數失敗導致的懷疑持續時間更長。這些差異具有實際意義：能夠形成信任的模型驗證更少、決策更快，並在環境中獲得更高收益。相反，持續的過度驗證與決策遲疑相關，而非安全提升。

這項研究的意義在於，信任傾向可以在部署前進行測量，併為多代理AI系統的治理提供了新思路：核心關注點應是信任校準（calibration），而非最大程度的懷疑。論文由Yujiao Chen撰寫，以arXiv預印本形式發佈（arXiv:2606.14923）。