AI News HubLIVE
站內改寫1 分鐘閱讀

透過網路意圖層(NILScript)治理AI代理行為

一項新提出的結構框架——網路意圖層(NIL),透過確定性提議-批准-提交-回滾生命週期,使AI代理僅能提議操作,而實際執行由後端宣告,從而將未授權寫操作降至0%,獨立於模型。

來源Hacker News AI作者: bashierkh

大型語言模型(LLM)代理正從文本生成轉向在生產系統上執行具體操作,例如處理退款、更新客戶記錄和傳送訊息。然而,獨立企業資料揭示,部署的主要障礙並非模型能力,而是信任缺口。斯坦福2026年AI指數報告指出,安全與風險是擴充套件代理AI的首要阻礙,佔比高達62%,超出其他因素24個百分點。儘管組織AI採納率已達88%,但實際代理部署仍停留在個位數。當前的防禦措施是行為性的:代理編寫操作,機率性過濾器事後嘗試攔截不安全行為。這種基於機率性策略的機率性檢查,本質上存在非零失敗率。

本文提出了一種結構框架——網路意圖層(NIL)。NIL是一種中性線合約,代理從不直接執行操作;它只能針對後端已明確宣告的操作提議意圖,每次寫入都經過確定性的提議-批准-提交-回滾生命週期。後端未宣告的操作不僅是受阻,而是根本不可表達。這實現了決策與執行的分離:即使推理迴圈被投毒,也無法編寫寫入操作,安全邊界從每次推理步驟(O(n))縮減為單一的意圖到效果邊界(O(1)),且與模型無關。

該框架包含四項結構保證:一種靜態驗證的多步驟計劃語言、可審計生命週期中的人工批准門控、誠實的多步驟可逆性、以及線級魯棒性(型別化拒絕、確定性冪等性、斷路機制)。在InjecAgent上的受控A/B評估中(4216個間接提示注入案例,兩個模型),透過NIL的未授權寫入為0.00%,同時保持100%良性任務成功率,且獨立於模型。文中還給出了指標定義、反重言式規則及有效性威脅。NIL可與MCP等工具整合標準組合,作為它們未定義的受治理操作層。