2026-06-24 05:01 UTC+8站内改写2 分钟阅读更新: 2026-06-24 05:07 UTC+8

AI助手的审批提示何时成为安全边界？

一位安全研究人员向开源AI项目Hermes Agent提交了三个审批绕过漏洞，但项目方在报告提交后修改了安全策略，将审批提示从安全边界重新定义为非边界启发式方法，并以此为由关闭了报告。文章讨论了行业中对审批提示安全角色的不一致看法，并提出了一个关键问题：在默认部署中，人工确认步骤究竟是安全控制还是便利工具？

来源Hacker News AI作者: nrig

一位安全研究人员近日披露了关于开源AI代理项目Hermes Agent（由Nous Research开发）的三个安全发现，这些发现揭示了在AI代理审批提示中存在的潜在安全漏洞。然而，项目方在收到报告后修改了安全策略，将这些发现重新归类为超出范围，引发了关于AI代理安全边界定义的行业讨论。

研究人员指出，Hermes Agent的审批系统旨在阻止危险命令的执行，但存在三种绕过方式。首先，在可选的“智能”审批模式下，第二个大语言模型被用于判断被标记的命令，但输入的命令被直接插入到评审模型的提示中，没有语义隔离，使得注入的文本可以误导模型批准危险操作。其次，代理的启动钩子目录中任何Python文件都会在启动时自动执行，无需注册或验证，这意味着通过提示注入，攻击者可以在不触发审批的情况下写入恶意文件，导致下次启动时执行任意代码。最后，审批系统的检测机制基于原始命令字符串的正则匹配，而非解析后的令牌，因此攻击者可以使用引号、变量间接引用、替代shell二进制文件等方式轻松绕过检测，执行相同危险操作。

研究人员在提交报告时，项目方的安全政策明确将审批系统称为“核心安全边界”，并明确将“导致审批系统实际绕过的提示注入”列入范围。然而，六天后，政策被重写，将审批提示重新定义为非边界的启发式方法，并移除了相关条款。研究人员的报告随后被关闭，理由是不再属于范围，但项目方未提及政策变更。

这一事件凸显了行业中的不一致性。例如，Anthropic将Claude Code中类似的命令解析错误评为高危漏洞（CVE-2026-24887），并发布了修复，尽管他们同样推荐使用沙箱作为真正的安全边界。两个项目处理同一类漏洞的方式截然相反，表明“沙箱是真正边界”与“审批绕过是漏洞”这两种立场并非互斥，但政策决定了实际修复与否。

研究人员强调，这些漏洞在默认的本地后端配置中至关重要，此时没有沙箱保护，用户依赖审批提示作为唯一安全机制。随着AI代理越来越多地获得真实shell访问权限，人工确认步骤究竟是安全控制还是便利工具，这一问题将直接决定哪些漏洞被修复、获得CVE或被关闭。