AI助手的审批提示何时成为安全边界?
一位安全研究人员向开源AI项目Hermes Agent提交了三个审批绕过漏洞,但项目方在报告提交后修改了安全策略,将审批提示从安全边界重新定义为非边界启发式方法,并以此为由关闭了报告。文章讨论了行业中对审批提示安全角色的不一致看法,并提出了一个关键问题:在默认部署中,人工确认步骤究竟是安全控制还是便利工具?
一位安全研究人员近日披露了关于开源AI代理项目Hermes Agent(由Nous Research开发)的三个安全发现,这些发现揭示了在AI代理审批提示中存在的潜在安全漏洞。然而,项目方在收到报告后修改了安全策略,将这些发现重新归类为超出范围,引发了关于AI代理安全边界定义的行业讨论。
研究人员指出,Hermes Agent的审批系统旨在阻止危险命令的执行,但存在三种绕过方式。首先,在可选的“智能”审批模式下,第二个大语言模型被用于判断被标记的命令,但输入的命令被直接插入到评审模型的提示中,没有语义隔离,使得注入的文本可以误导模型批准危险操作。其次,代理的启动钩子目录中任何Python文件都会在启动时自动执行,无需注册或验证,这意味着通过提示注入,攻击者可以在不触发审批的情况下写入恶意文件,导致下次启动时执行任意代码。最后,审批系统的检测机制基于原始命令字符串的正则匹配,而非解析后的令牌,因此攻击者可以使用引号、变量间接引用、替代shell二进制文件等方式轻松绕过检测,执行相同危险操作。
研究人员在提交报告时,项目方的安全政策明确将审批系统称为“核心安全边界”,并明确将“导致审批系统实际绕过的提示注入”列入范围。然而,六天后,政策被重写,将审批提示重新定义为非边界的启发式方法,并移除了相关条款。研究人员的报告随后被关闭,理由是不再属于范围,但项目方未提及政策变更。
这一事件凸显了行业中的不一致性。例如,Anthropic将Claude Code中类似的命令解析错误评为高危漏洞(CVE-2026-24887),并发布了修复,尽管他们同样推荐使用沙箱作为真正的安全边界。两个项目处理同一类漏洞的方式截然相反,表明“沙箱是真正边界”与“审批绕过是漏洞”这两种立场并非互斥,但政策决定了实际修复与否。
研究人员强调,这些漏洞在默认的本地后端配置中至关重要,此时没有沙箱保护,用户依赖审批提示作为唯一安全机制。随着AI代理越来越多地获得真实shell访问权限,人工确认步骤究竟是安全控制还是便利工具,这一问题将直接决定哪些漏洞被修复、获得CVE或被关闭。