Fable 5和Mythos 5仍被暂停:“球在Anthropic这边”
Anthropic在周五晚因美国政府发现Fable 5存在特定越狱漏洞而突然禁用其新旗舰模型Fable 5和Mythos 5。Anthropic认为漏洞轻微,但白宫AI负责人David Sacks和亚马逊CEO的介入使得事态复杂化。该事件为AI安全监管树立了新先例。
上周五晚,Anthropic突然关闭了其新旗舰模型Fable 5和Mythos 5,原因是美国政府发现了一种针对Fable 5的特定越狱方法,并对其发布了出口管制令。该命令适用于所有外国人,包括在美国境内的人员,因此Anthropic别无选择,只能对所有人禁用这些模型。
截至目前,该越狱的具体细节尚未公开。Anthropic辩称,政府展示的只是“微小漏洞”,“看起来相对简单”,且未超越其他公开可用模型的能力范围。当Anthropic发布Fable 5和Mythos 5时,曾说明Fable 5已通过英国AI安全研究所及其他外部测试人员的广泛红队安全演练。Anthropic的内部测试显示,该模型能完成约5%的对抗性网络任务。
Fable 5的模型卡还特别指出,“如果发现公开的通用越狱方法,我们将迅速更新防御措施,确保对所有已知攻击保持鲁棒性。”但根据现有信息,当前问题并非通用越狱,而是针对特定漏洞。截至周六上午,Anthropic尚未更新其之前的声明,该声明称这一切“是一场误解”。
然而,鉴于现在是2026年,故事变得更加复杂。白宫科技顾问委员会联合主席、前AI与加密货币沙皇David Sacks在周六发布了美国政府的版本。Sacks称,“一位高度可信的、Anthropic和美国政府双方的信任合作伙伴”报告了该越狱,政府要求Anthropic CEO Dario Amodei改进护栏或下架模型,“Dario拒绝了,”Sacks写道。
据《华尔街日报》和The Information的独立报道,是亚马逊CEO Andy Jassy向包括财政部长Scott Bessent在内的美国官员报告了亚马逊研究人员发现的越狱。研究人员找到了绕过Fable 5安全护栏的方法,使其能够协助网络攻击。Anthropic发布Fable 5时曾表示已设置护栏,防止模型帮助用户发起网络攻击或制造生物武器。事实上,许多用户抱怨模型拒绝回答无害问题。当系统检测到潜在不安全提示时,Claude会悄悄切换到之前的旗舰模型Opus 4.8。
由于该越狱由亚马逊报告,研究人员很可能是在Amazon Bedrock上测试了Fable 5。亚马逊表示其平台与通过Anthropic直接使用Claude具有相同的安全机制。Sacks指出,Anthropic为其不下架模型的立场辩护,称“越狱并不严重”,但这种轻描淡写的语言与Anthropic作为AI安全公司的品牌形象不符。“很难想象他们怎么能声称允许网络武器操作的越狱不被定义为‘严重’。”
许多评论员指出,正是Anthropic曾主张Mythos 5过于危险而不应公开发布,也是Anthropic建立了以AI安全为首要任务的品牌形象。如今Sacks可以将此转向公司:“过去,Anthropic总是说安全必须优先并认真对待。在这种情况下,Anthropic优先考虑继续提供消费模型而非安全。”
最直接的解决方案是Anthropic设置新的护栏以防止特定越狱,但考虑到模型的非确定性,其他越狱方法可能很快出现。不过,很可能很快会看到修复,出口管制将被解除,模型重新可用。然而,这为美国政府处理AI安全树立了新先例,其他美国前沿实验室无疑将密切关注。AI的发展一直是实验室间的反复较量,Fable 5/Mythos 5不太可能成为AI模型开发的顶峰。
这对OpenAI和Google的下一代模型意味着什么尚待观察。美国政府曾提议在发布新模型前进行自愿安全测试,此事件可能再次推动该想法。值得一提的是,Anthropic一直是比任何公司都更倡导AI监管的公司。Sacks在推文中表示,政府重视Anthropic的技术能力,认为问题虽然严重但应易解决,“球在Anthropic这边。”