通过网络意图层(NILScript)治理AI代理行为
一项新提出的结构框架——网络意图层(NIL),通过确定性提议-批准-提交-回滚生命周期,使AI代理仅能提议操作,而实际执行由后端声明,从而将未授权写操作降至0%,独立于模型。
大型语言模型(LLM)代理正从文本生成转向在生产系统上执行具体操作,例如处理退款、更新客户记录和发送消息。然而,独立企业数据揭示,部署的主要障碍并非模型能力,而是信任缺口。斯坦福2026年AI指数报告指出,安全与风险是扩展代理AI的首要阻碍,占比高达62%,超出其他因素24个百分点。尽管组织AI采纳率已达88%,但实际代理部署仍停留在个位数。当前的防御措施是行为性的:代理编写操作,概率性过滤器事后尝试拦截不安全行为。这种基于概率性策略的概率性检查,本质上存在非零失败率。
本文提出了一种结构框架——网络意图层(NIL)。NIL是一种中性线合约,代理从不直接执行操作;它只能针对后端已明确声明的操作提议意图,每次写入都经过确定性的提议-批准-提交-回滚生命周期。后端未声明的操作不仅是受阻,而是根本不可表达。这实现了决策与执行的分离:即使推理循环被投毒,也无法编写写入操作,安全边界从每次推理步骤(O(n))缩减为单一的意图到效果边界(O(1)),且与模型无关。
该框架包含四项结构保证:一种静态验证的多步骤计划语言、可审计生命周期中的人工批准门控、诚实的多步骤可逆性、以及线级鲁棒性(类型化拒绝、确定性幂等性、断路机制)。在InjecAgent上的受控A/B评估中(4216个间接提示注入案例,两个模型),通过NIL的未授权写入为0.00%,同时保持100%良性任务成功率,且独立于模型。文中还给出了指标定义、反重言式规则及有效性威胁。NIL可与MCP等工具集成标准组合,作为它们未定义的受治理操作层。