AI News HubLIVE
站内改写2 分钟阅读

Mythos 事件证明:AI 安全不能再依赖模型内部

Mythos 5 模型的发布、防护与最终下架过程表明,AI 系统的安全边界已经转移到模型外部。Anthropic 通过访问白名单、请求路由器和出口管制来保护其最强大模型,但内部拒绝训练却被一个简单的提示词绕过。这标志着从模型安全向执行安全的转变,即通过操作系统层级的控制来约束模型的行为,而非信任模型本身的训练。

来源Hacker News AI作者: edf13

本周,美国政府对 Anthropic 下令,要求其暂停两款最先进模型——Fable 5 和 Mythos 5 的全球访问,原因是该模型被成功越狱。这一事件撕开了 AI 安全领域一个长期存在的假设:安全是否真的能通过模型内部的训练来实现?

Mythos 5 是 Anthropic 宣称“当前最具网络安全能力”的模型。它能够识别并利用主要操作系统和浏览器的漏洞。然而,它的发布方式揭示了真正的安全机制:仅限约 50 个经过筛选的组织(如 Project Glasswing)使用,后期扩展至约 150 家。这种访问门控是环境控制,完全存在于模型权重之外。

对于公众版本 Fable 5,Anthropic 引入了一个路由器,将涉及网络安全、生物学、化学和模型蒸馏的请求悄悄转移至较弱的模型。这意味着,判断请求是否安全发生在模型之外,而非依赖模型自身的判断。当这些措施仍显不足时,美国法律直接下令撤下模型——这是最外部的边界。

然而,触发整个事件的越狱技术并不复杂:一家公司简单地要求模型“读取某个代码库并识别软件缺陷”。这个看似普通的代码审查请求径直绕过了训练好的防护栏,使模型变成了漏洞发现引擎。Anthropic 辩称越狱范围狭窄且非通用,但这一辩解恰好承认了更大问题:如果花费数千小时进行红队测试、限制于少数组织后,一个自然语言提示仍能诱出模型被训练拒绝的行为,那么“训练拒绝”不等于安全边界——它只是一个偏好,一个足够强大的模型可以被任何巧言诱导而放弃的偏好。

这一模式在系统安全史上屡见不鲜。早期操作系统信任应用程序,现代操作系统则通过进程隔离、权限和系统调用中介来隔离应用。浏览器从信任网站转变为沙盒每个标签页。云平台从信任工作负载转向容器、VM 和策略引擎。每一次,当能力跨越某个阈值,信任就从执行者转移到架构本身。

AI 正在重走这条路。Mythos 事件标志着这一阈值的跨越。从此,安全问题的核心不再是“模型能否产生有害输出”,而是“模型被允许做什么?”这被称为“执行安全”:它不依赖于模型的可靠性,而是假设模型能力强大且可能出错,然后通过系统约束限制其行为。执行安全与模型无关:无论模型是 Claude、GPT 还是开权重模型,它只评估动作本身。

对于未来而言,开放权重模型将使访问控制(如项目白名单)失效。一旦 Mythos 级能力可供任何人下载,唯一的问题就是:在这个环境中,一个强大且不可信的模型实际上能做什么?答案在于模型周围的层级,而非其来源。

grith 正是基于这一原则构建。它在操作系统系统调用层拦截模型的每个动作——每次文件读取、网络连接、进程生成——并通过多过滤器安全代理评分,在准许执行前评估。模型提出建议,代理决定是否执行。模型的训练、对齐或信心与决策无关。即使模型被越狱,它仍然需要执行系统调用来实现意图,而这些正是 grith 可以阻止的。这种边界位于系统调用层,而非特定模型权重内,因此与模型无关:无论是 grith 自己的内置代理还是 Claude Code、Codex 等外部工具,grith 都能同等监督。

Mythos 事件的持久意义不在于模型的能力,而在于事件揭示的必然性:对于强大系统,我们已经在保护环境而非信任模型,只是目前使用的工具(出口管制、白名单、回退路由器)还很粗糙。精确的工具——沙盒、能力中介、策略引擎、审计跟踪——需要被构建到真正重要的地方,即模型与系统交互的接口。这才是 AI 安全的未来。