2026-06-13站内改写2 分钟阅读更新: 2026-06-13

Fable 5和Mythos 5仍被暂停：“球在Anthropic这边”

Anthropic在周五晚因美国政府发现Fable 5存在特定越狱漏洞而突然禁用其新旗舰模型Fable 5和Mythos 5。Anthropic认为漏洞轻微，但白宫AI负责人David Sacks和亚马逊CEO的介入使得事态复杂化。该事件为AI安全监管树立了新先例。

来源The New Stack AI作者: Frederic Lardinois

上周五晚，Anthropic突然关闭了其新旗舰模型Fable 5和Mythos 5，原因是美国政府发现了一种针对Fable 5的特定越狱方法，并对其发布了出口管制令。该命令适用于所有外国人，包括在美国境内的人员，因此Anthropic别无选择，只能对所有人禁用这些模型。

截至目前，该越狱的具体细节尚未公开。Anthropic辩称，政府展示的只是“微小漏洞”，“看起来相对简单”，且未超越其他公开可用模型的能力范围。当Anthropic发布Fable 5和Mythos 5时，曾说明Fable 5已通过英国AI安全研究所及其他外部测试人员的广泛红队安全演练。Anthropic的内部测试显示，该模型能完成约5%的对抗性网络任务。

Fable 5的模型卡还特别指出，“如果发现公开的通用越狱方法，我们将迅速更新防御措施，确保对所有已知攻击保持鲁棒性。”但根据现有信息，当前问题并非通用越狱，而是针对特定漏洞。截至周六上午，Anthropic尚未更新其之前的声明，该声明称这一切“是一场误解”。

然而，鉴于现在是2026年，故事变得更加复杂。白宫科技顾问委员会联合主席、前AI与加密货币沙皇David Sacks在周六发布了美国政府的版本。Sacks称，“一位高度可信的、Anthropic和美国政府双方的信任合作伙伴”报告了该越狱，政府要求Anthropic CEO Dario Amodei改进护栏或下架模型，“Dario拒绝了，”Sacks写道。

据《华尔街日报》和The Information的独立报道，是亚马逊CEO Andy Jassy向包括财政部长Scott Bessent在内的美国官员报告了亚马逊研究人员发现的越狱。研究人员找到了绕过Fable 5安全护栏的方法，使其能够协助网络攻击。Anthropic发布Fable 5时曾表示已设置护栏，防止模型帮助用户发起网络攻击或制造生物武器。事实上，许多用户抱怨模型拒绝回答无害问题。当系统检测到潜在不安全提示时，Claude会悄悄切换到之前的旗舰模型Opus 4.8。

由于该越狱由亚马逊报告，研究人员很可能是在Amazon Bedrock上测试了Fable 5。亚马逊表示其平台与通过Anthropic直接使用Claude具有相同的安全机制。Sacks指出，Anthropic为其不下架模型的立场辩护，称“越狱并不严重”，但这种轻描淡写的语言与Anthropic作为AI安全公司的品牌形象不符。“很难想象他们怎么能声称允许网络武器操作的越狱不被定义为‘严重’。”

许多评论员指出，正是Anthropic曾主张Mythos 5过于危险而不应公开发布，也是Anthropic建立了以AI安全为首要任务的品牌形象。如今Sacks可以将此转向公司：“过去，Anthropic总是说安全必须优先并认真对待。在这种情况下，Anthropic优先考虑继续提供消费模型而非安全。”

最直接的解决方案是Anthropic设置新的护栏以防止特定越狱，但考虑到模型的非确定性，其他越狱方法可能很快出现。不过，很可能很快会看到修复，出口管制将被解除，模型重新可用。然而，这为美国政府处理AI安全树立了新先例，其他美国前沿实验室无疑将密切关注。AI的发展一直是实验室间的反复较量，Fable 5/Mythos 5不太可能成为AI模型开发的顶峰。

这对OpenAI和Google的下一代模型意味着什么尚待观察。美国政府曾提议在发布新模型前进行自愿安全测试，此事件可能再次推动该想法。值得一提的是，Anthropic一直是比任何公司都更倡导AI监管的公司。Sacks在推文中表示，政府重视Anthropic的技术能力，认为问题虽然严重但应易解决，“球在Anthropic这边。”