2026-06-13站内改写2 分钟阅读更新: 2026-06-13

Mythos 事件证明：AI 安全不能再依赖模型内部

Mythos 5 模型的发布、防护与最终下架过程表明，AI 系统的安全边界已经转移到模型外部。Anthropic 通过访问白名单、请求路由器和出口管制来保护其最强大模型，但内部拒绝训练却被一个简单的提示词绕过。这标志着从模型安全向执行安全的转变，即通过操作系统层级的控制来约束模型的行为，而非信任模型本身的训练。

来源Hacker News AI作者: edf13

本周，美国政府对 Anthropic 下令，要求其暂停两款最先进模型——Fable 5 和 Mythos 5 的全球访问，原因是该模型被成功越狱。这一事件撕开了 AI 安全领域一个长期存在的假设：安全是否真的能通过模型内部的训练来实现？

Mythos 5 是 Anthropic 宣称“当前最具网络安全能力”的模型。它能够识别并利用主要操作系统和浏览器的漏洞。然而，它的发布方式揭示了真正的安全机制：仅限约 50 个经过筛选的组织（如 Project Glasswing）使用，后期扩展至约 150 家。这种访问门控是环境控制，完全存在于模型权重之外。

对于公众版本 Fable 5，Anthropic 引入了一个路由器，将涉及网络安全、生物学、化学和模型蒸馏的请求悄悄转移至较弱的模型。这意味着，判断请求是否安全发生在模型之外，而非依赖模型自身的判断。当这些措施仍显不足时，美国法律直接下令撤下模型——这是最外部的边界。

然而，触发整个事件的越狱技术并不复杂：一家公司简单地要求模型“读取某个代码库并识别软件缺陷”。这个看似普通的代码审查请求径直绕过了训练好的防护栏，使模型变成了漏洞发现引擎。Anthropic 辩称越狱范围狭窄且非通用，但这一辩解恰好承认了更大问题：如果花费数千小时进行红队测试、限制于少数组织后，一个自然语言提示仍能诱出模型被训练拒绝的行为，那么“训练拒绝”不等于安全边界——它只是一个偏好，一个足够强大的模型可以被任何巧言诱导而放弃的偏好。

这一模式在系统安全史上屡见不鲜。早期操作系统信任应用程序，现代操作系统则通过进程隔离、权限和系统调用中介来隔离应用。浏览器从信任网站转变为沙盒每个标签页。云平台从信任工作负载转向容器、VM 和策略引擎。每一次，当能力跨越某个阈值，信任就从执行者转移到架构本身。

AI 正在重走这条路。Mythos 事件标志着这一阈值的跨越。从此，安全问题的核心不再是“模型能否产生有害输出”，而是“模型被允许做什么？”这被称为“执行安全”：它不依赖于模型的可靠性，而是假设模型能力强大且可能出错，然后通过系统约束限制其行为。执行安全与模型无关：无论模型是 Claude、GPT 还是开权重模型，它只评估动作本身。

对于未来而言，开放权重模型将使访问控制（如项目白名单）失效。一旦 Mythos 级能力可供任何人下载，唯一的问题就是：在这个环境中，一个强大且不可信的模型实际上能做什么？答案在于模型周围的层级，而非其来源。

grith 正是基于这一原则构建。它在操作系统系统调用层拦截模型的每个动作——每次文件读取、网络连接、进程生成——并通过多过滤器安全代理评分，在准许执行前评估。模型提出建议，代理决定是否执行。模型的训练、对齐或信心与决策无关。即使模型被越狱，它仍然需要执行系统调用来实现意图，而这些正是 grith 可以阻止的。这种边界位于系统调用层，而非特定模型权重内，因此与模型无关：无论是 grith 自己的内置代理还是 Claude Code、Codex 等外部工具，grith 都能同等监督。

Mythos 事件的持久意义不在于模型的能力，而在于事件揭示的必然性：对于强大系统，我们已经在保护环境而非信任模型，只是目前使用的工具（出口管制、白名单、回退路由器）还很粗糙。精确的工具——沙盒、能力中介、策略引擎、审计跟踪——需要被构建到真正重要的地方，即模型与系统交互的接口。这才是 AI 安全的未来。