2026-06-21 15:59 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

透過網路意圖層（NILScript）治理AI代理行為

一項新提出的結構框架——網路意圖層（NIL），透過確定性提議-批准-提交-回滾生命週期，使AI代理僅能提議操作，而實際執行由後端宣告，從而將未授權寫操作降至0%，獨立於模型。

來源Hacker News AI作者: bashierkh

大型語言模型（LLM）代理正從文本生成轉向在生產系統上執行具體操作，例如處理退款、更新客戶記錄和傳送訊息。然而，獨立企業資料揭示，部署的主要障礙並非模型能力，而是信任缺口。斯坦福2026年AI指數報告指出，安全與風險是擴充套件代理AI的首要阻礙，佔比高達62%，超出其他因素24個百分點。儘管組織AI採納率已達88%，但實際代理部署仍停留在個位數。當前的防禦措施是行為性的：代理編寫操作，機率性過濾器事後嘗試攔截不安全行為。這種基於機率性策略的機率性檢查，本質上存在非零失敗率。

本文提出了一種結構框架——網路意圖層（NIL）。NIL是一種中性線合約，代理從不直接執行操作；它只能針對後端已明確宣告的操作提議意圖，每次寫入都經過確定性的提議-批准-提交-回滾生命週期。後端未宣告的操作不僅是受阻，而是根本不可表達。這實現了決策與執行的分離：即使推理迴圈被投毒，也無法編寫寫入操作，安全邊界從每次推理步驟（O(n)）縮減為單一的意圖到效果邊界（O(1)），且與模型無關。

該框架包含四項結構保證：一種靜態驗證的多步驟計劃語言、可審計生命週期中的人工批准門控、誠實的多步驟可逆性、以及線級魯棒性（型別化拒絕、確定性冪等性、斷路機制）。在InjecAgent上的受控A/B評估中（4216個間接提示注入案例，兩個模型），透過NIL的未授權寫入為0.00%，同時保持100%良性任務成功率，且獨立於模型。文中還給出了指標定義、反重言式規則及有效性威脅。NIL可與MCP等工具整合標準組合，作為它們未定義的受治理操作層。