Fable 5和Mythos 5仍被暫停:“球在Anthropic這邊”
Anthropic在週五晚因美國政府發現Fable 5存在特定越獄漏洞而突然禁用其新旗艦模型Fable 5和Mythos 5。Anthropic認為漏洞輕微,但白宮AI負責人David Sacks和亞馬遜CEO的介入使得事態複雜化。該事件為AI安全監管樹立了新先例。
上週五晚,Anthropic突然關閉了其新旗艦模型Fable 5和Mythos 5,原因是美國政府發現了一種針對Fable 5的特定越獄方法,並對其發佈了出口管制令。該命令適用於所有外國人,包括在美國境內的人員,因此Anthropic別無選擇,只能對所有人禁用這些模型。
截至目前,該越獄的具體細節尚未公開。Anthropic辯稱,政府展示的只是“微小漏洞”,“看起來相對簡單”,且未超越其他公開可用模型的能力範圍。當Anthropic發佈Fable 5和Mythos 5時,曾説明Fable 5已通過英國AI安全研究所及其他外部測試人員的廣泛紅隊安全演練。Anthropic的內部測試顯示,該模型能完成約5%的對抗性網絡任務。
Fable 5的模型卡還特別指出,“如果發現公開的通用越獄方法,我們將迅速更新防禦措施,確保對所有已知攻擊保持魯棒性。”但根據現有信息,當前問題並非通用越獄,而是針對特定漏洞。截至週六上午,Anthropic尚未更新其之前的聲明,該聲明稱這一切“是一場誤解”。
然而,鑑於現在是2026年,故事變得更加複雜。白宮科技顧問委員會聯合主席、前AI與加密貨幣沙皇David Sacks在週六發佈了美國政府的版本。Sacks稱,“一位高度可信的、Anthropic和美國政府雙方的信任合作伙伴”報告了該越獄,政府要求Anthropic CEO Dario Amodei改進護欄或下架模型,“Dario拒絕了,”Sacks寫道。
據《華爾街日報》和The Information的獨立報道,是亞馬遜CEO Andy Jassy向包括財政部長Scott Bessent在內的美國官員報告了亞馬遜研究人員發現的越獄。研究人員找到了繞過Fable 5安全護欄的方法,使其能夠協助網絡攻擊。Anthropic發佈Fable 5時曾表示已設置護欄,防止模型幫助用户發起網絡攻擊或製造生物武器。事實上,許多用户抱怨模型拒絕回答無害問題。當系統檢測到潛在不安全提示時,Claude會悄悄切換到之前的旗艦模型Opus 4.8。
由於該越獄由亞馬遜報告,研究人員很可能是在Amazon Bedrock上測試了Fable 5。亞馬遜表示其平台與通過Anthropic直接使用Claude具有相同的安全機制。Sacks指出,Anthropic為其不下架模型的立場辯護,稱“越獄並不嚴重”,但這種輕描淡寫的語言與Anthropic作為AI安全公司的品牌形象不符。“很難想象他們怎麼能聲稱允許網絡武器操作的越獄不被定義為‘嚴重’。”
許多評論員指出,正是Anthropic曾主張Mythos 5過於危險而不應公開發布,也是Anthropic建立了以AI安全為首要任務的品牌形象。如今Sacks可以將此轉向公司:“過去,Anthropic總是説安全必須優先並認真對待。在這種情況下,Anthropic優先考慮繼續提供消費模型而非安全。”
最直接的解決方案是Anthropic設置新的護欄以防止特定越獄,但考慮到模型的非確定性,其他越獄方法可能很快出現。不過,很可能很快會看到修復,出口管制將被解除,模型重新可用。然而,這為美國政府處理AI安全樹立了新先例,其他美國前沿實驗室無疑將密切關注。AI的發展一直是實驗室間的反覆較量,Fable 5/Mythos 5不太可能成為AI模型開發的頂峯。
這對OpenAI和Google的下一代模型意味着什麼尚待觀察。美國政府曾提議在發佈新模型前進行自願安全測試,此事件可能再次推動該想法。值得一提的是,Anthropic一直是比任何公司都更倡導AI監管的公司。Sacks在推文中表示,政府重視Anthropic的技術能力,認為問題雖然嚴重但應易解決,“球在Anthropic這邊。”