2026-06-21 15:59 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

通过网络意图层（NILScript）治理AI代理行为

一项新提出的结构框架——网络意图层（NIL），通过确定性提议-批准-提交-回滚生命周期，使AI代理仅能提议操作，而实际执行由后端声明，从而将未授权写操作降至0%，独立于模型。

来源Hacker News AI作者: bashierkh

大型语言模型（LLM）代理正从文本生成转向在生产系统上执行具体操作，例如处理退款、更新客户记录和发送消息。然而，独立企业数据揭示，部署的主要障碍并非模型能力，而是信任缺口。斯坦福2026年AI指数报告指出，安全与风险是扩展代理AI的首要阻碍，占比高达62%，超出其他因素24个百分点。尽管组织AI采纳率已达88%，但实际代理部署仍停留在个位数。当前的防御措施是行为性的：代理编写操作，概率性过滤器事后尝试拦截不安全行为。这种基于概率性策略的概率性检查，本质上存在非零失败率。

本文提出了一种结构框架——网络意图层（NIL）。NIL是一种中性线合约，代理从不直接执行操作；它只能针对后端已明确声明的操作提议意图，每次写入都经过确定性的提议-批准-提交-回滚生命周期。后端未声明的操作不仅是受阻，而是根本不可表达。这实现了决策与执行的分离：即使推理循环被投毒，也无法编写写入操作，安全边界从每次推理步骤（O(n)）缩减为单一的意图到效果边界（O(1)），且与模型无关。

该框架包含四项结构保证：一种静态验证的多步骤计划语言、可审计生命周期中的人工批准门控、诚实的多步骤可逆性、以及线级鲁棒性（类型化拒绝、确定性幂等性、断路机制）。在InjecAgent上的受控A/B评估中（4216个间接提示注入案例，两个模型），通过NIL的未授权写入为0.00%，同时保持100%良性任务成功率，且独立于模型。文中还给出了指标定义、反重言式规则及有效性威胁。NIL可与MCP等工具集成标准组合，作为它们未定义的受治理操作层。