2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:51 UTC+8

治理行動而非智慧體：機構認證作為自主AI系統的治理模型

該論文提出了一種自主AI智慧體的治理模型，不監控其推理過程，而是要求在採取高風險行動時提供獨立認證的證據。智慧體保留規劃和推理的自主權，但執行需要滿足由獨立權威來源認證的前提條件，這些條件與宣告的意圖加密繫結，並由確定性策略評估。決策記錄在防篡改日誌中，可供獨立重新驗證。研究提供了概念驗證實現，並舉例說明了軟體部署和臨床處方中的應用。

來源arXiv AI作者: Jakob Salfeld-Nebgen

arXiv上釋出的一項新研究提出了一種針對自主AI智慧體的治理模型，該模型借鑑人類機構管理強大自主行動者的方式，不直接監控智慧體的推理過程，而是要求在採取高風險行動時提供獨立認證的證據。論文《Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems》的作者Jakob Salfeld-Nebgen觀察到，隨著AI智慧體開始執行臨床處方或生產軟體部署等具有重大且不可逆後果的行動，迫切需要有效的治理框架。

該模型的核心思想是讓智慧體保留完全的規劃和推理自主權，但剝奪其對指定高風險行動的執行許可權。執行這些行動的條件是：每個前提條件必須由獨立的權威來源提供認證，這些認證與智慧體宣告的意圖透過加密方式繫結，並由一個確定性策略進行評估。所有決策都記錄在防篡改日誌中，以便於獨立重新驗證。這種設計確保了智慧體在其自主區域內自由行動，但每當它試圖執行一個被標記為高風險的動作時，必須從外部權威獲取數字簽名形式的認證。認證必須與一個明確宣告的意圖相關聯，該意圖被雜湊並繫結到認證中，從而防止意圖被篡改。

作者將該模式形式化為一個計算治理模型，並提供了概念驗證實現。透過軟體部署和臨床處方兩個例項，論文展示了該模型如何在實際場景中應用：例如，在軟體部署中，程式碼必須經過安全審查和測試認證後，才能由自動化系統執行部署；在臨床處方中，藥物建議必須經過獨立診斷驗證和患者記錄檢查，才能生成處方。此外，論文還討論了模型的可擴充套件性、潛在的攻擊向量以及如何處理認證失敗的情況。

這項研究為AI安全治理提供了新思路，特別是對於可能造成重大影響的自主系統。論文強調，透過關注行動而非智慧體本身，可以同時保持效率和可問責性。相關程式碼和更多細節可在arXiv上獲取。