治理行動而非智能體:機構認證作為自主AI系統的治理模型
該論文提出了一種自主AI智能體的治理模型,不監控其推理過程,而是要求在採取高風險行動時提供獨立認證的證據。智能體保留規劃和推理的自主權,但執行需要滿足由獨立權威來源認證的前提條件,這些條件與聲明的意圖加密綁定,並由確定性策略評估。決策記錄在防篡改日誌中,可供獨立重新驗證。研究提供了概念驗證實現,並舉例説明了軟件部署和臨牀處方中的應用。
arXiv上發佈的一項新研究提出了一種針對自主AI智能體的治理模型,該模型借鑑人類機構管理強大自主行動者的方式,不直接監控智能體的推理過程,而是要求在採取高風險行動時提供獨立認證的證據。論文《Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems》的作者Jakob Salfeld-Nebgen觀察到,隨着AI智能體開始執行臨牀處方或生產軟件部署等具有重大且不可逆後果的行動,迫切需要有效的治理框架。
該模型的核心思想是讓智能體保留完全的規劃和推理自主權,但剝奪其對指定高風險行動的執行權限。執行這些行動的條件是:每個前提條件必須由獨立的權威來源提供認證,這些認證與智能體聲明的意圖通過加密方式綁定,並由一個確定性策略進行評估。所有決策都記錄在防篡改日誌中,以便於獨立重新驗證。這種設計確保了智能體在其自主區域內自由行動,但每當它試圖執行一個被標記為高風險的動作時,必須從外部權威獲取數字簽名形式的認證。認證必須與一個明確聲明的意圖相關聯,該意圖被哈希並綁定到認證中,從而防止意圖被篡改。
作者將該模式形式化為一個計算治理模型,並提供了概念驗證實現。通過軟件部署和臨牀處方兩個實例,論文展示了該模型如何在實際場景中應用:例如,在軟件部署中,代碼必須經過安全審查和測試認證後,才能由自動化系統執行部署;在臨牀處方中,藥物建議必須經過獨立診斷驗證和患者記錄檢查,才能生成處方。此外,論文還討論了模型的可擴展性、潛在的攻擊向量以及如何處理認證失敗的情況。
這項研究為AI安全治理提供了新思路,特別是對於可能造成重大影響的自主系統。論文強調,通過關注行動而非智能體本身,可以同時保持效率和可問責性。相關代碼和更多細節可在arXiv上獲取。