通過網絡意圖層(NILScript)治理AI代理行為
一項新提出的結構框架——網絡意圖層(NIL),通過確定性提議-批准-提交-回滾生命週期,使AI代理僅能提議操作,而實際執行由後端聲明,從而將未授權寫操作降至0%,獨立於模型。
大型語言模型(LLM)代理正從文本生成轉向在生產系統上執行具體操作,例如處理退款、更新客户記錄和發送消息。然而,獨立企業數據揭示,部署的主要障礙並非模型能力,而是信任缺口。斯坦福2026年AI指數報告指出,安全與風險是擴展代理AI的首要阻礙,佔比高達62%,超出其他因素24個百分點。儘管組織AI採納率已達88%,但實際代理部署仍停留在個位數。當前的防禦措施是行為性的:代理編寫操作,概率性過濾器事後嘗試攔截不安全行為。這種基於概率性策略的概率性檢查,本質上存在非零失敗率。
本文提出了一種結構框架——網絡意圖層(NIL)。NIL是一種中性線合約,代理從不直接執行操作;它只能針對後端已明確聲明的操作提議意圖,每次寫入都經過確定性的提議-批准-提交-回滾生命週期。後端未聲明的操作不僅是受阻,而是根本不可表達。這實現了決策與執行的分離:即使推理循環被投毒,也無法編寫寫入操作,安全邊界從每次推理步驟(O(n))縮減為單一的意圖到效果邊界(O(1)),且與模型無關。
該框架包含四項結構保證:一種靜態驗證的多步驟計劃語言、可審計生命週期中的人工批准門控、誠實的多步驟可逆性、以及線級魯棒性(類型化拒絕、確定性冪等性、斷路機制)。在InjecAgent上的受控A/B評估中(4216個間接提示注入案例,兩個模型),通過NIL的未授權寫入為0.00%,同時保持100%良性任務成功率,且獨立於模型。文中還給出了指標定義、反重言式規則及有效性威脅。NIL可與MCP等工具集成標準組合,作為它們未定義的受治理操作層。