2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Fable 5和Mythos 5仍被暫停：“球在Anthropic這邊”

Anthropic在週五晚因美國政府發現Fable 5存在特定越獄漏洞而突然禁用其新旗艦模型Fable 5和Mythos 5。Anthropic認為漏洞輕微，但白宮AI負責人David Sacks和亞馬遜CEO的介入使得事態複雜化。該事件為AI安全監管樹立了新先例。

來源The New Stack AI作者: Frederic Lardinois

上週五晚，Anthropic突然關閉了其新旗艦模型Fable 5和Mythos 5，原因是美國政府發現了一種針對Fable 5的特定越獄方法，並對其發佈了出口管制令。該命令適用於所有外國人，包括在美國境內的人員，因此Anthropic別無選擇，只能對所有人禁用這些模型。

截至目前，該越獄的具體細節尚未公開。Anthropic辯稱，政府展示的只是“微小漏洞”，“看起來相對簡單”，且未超越其他公開可用模型的能力範圍。當Anthropic發佈Fable 5和Mythos 5時，曾説明Fable 5已通過英國AI安全研究所及其他外部測試人員的廣泛紅隊安全演練。Anthropic的內部測試顯示，該模型能完成約5%的對抗性網絡任務。

Fable 5的模型卡還特別指出，“如果發現公開的通用越獄方法，我們將迅速更新防禦措施，確保對所有已知攻擊保持魯棒性。”但根據現有信息，當前問題並非通用越獄，而是針對特定漏洞。截至週六上午，Anthropic尚未更新其之前的聲明，該聲明稱這一切“是一場誤解”。

然而，鑑於現在是2026年，故事變得更加複雜。白宮科技顧問委員會聯合主席、前AI與加密貨幣沙皇David Sacks在週六發佈了美國政府的版本。Sacks稱，“一位高度可信的、Anthropic和美國政府雙方的信任合作伙伴”報告了該越獄，政府要求Anthropic CEO Dario Amodei改進護欄或下架模型，“Dario拒絕了，”Sacks寫道。

據《華爾街日報》和The Information的獨立報道，是亞馬遜CEO Andy Jassy向包括財政部長Scott Bessent在內的美國官員報告了亞馬遜研究人員發現的越獄。研究人員找到了繞過Fable 5安全護欄的方法，使其能夠協助網絡攻擊。Anthropic發佈Fable 5時曾表示已設置護欄，防止模型幫助用户發起網絡攻擊或製造生物武器。事實上，許多用户抱怨模型拒絕回答無害問題。當系統檢測到潛在不安全提示時，Claude會悄悄切換到之前的旗艦模型Opus 4.8。

由於該越獄由亞馬遜報告，研究人員很可能是在Amazon Bedrock上測試了Fable 5。亞馬遜表示其平台與通過Anthropic直接使用Claude具有相同的安全機制。Sacks指出，Anthropic為其不下架模型的立場辯護，稱“越獄並不嚴重”，但這種輕描淡寫的語言與Anthropic作為AI安全公司的品牌形象不符。“很難想象他們怎麼能聲稱允許網絡武器操作的越獄不被定義為‘嚴重’。”

許多評論員指出，正是Anthropic曾主張Mythos 5過於危險而不應公開發布，也是Anthropic建立了以AI安全為首要任務的品牌形象。如今Sacks可以將此轉向公司：“過去，Anthropic總是説安全必須優先並認真對待。在這種情況下，Anthropic優先考慮繼續提供消費模型而非安全。”

最直接的解決方案是Anthropic設置新的護欄以防止特定越獄，但考慮到模型的非確定性，其他越獄方法可能很快出現。不過，很可能很快會看到修復，出口管制將被解除，模型重新可用。然而，這為美國政府處理AI安全樹立了新先例，其他美國前沿實驗室無疑將密切關注。AI的發展一直是實驗室間的反覆較量，Fable 5/Mythos 5不太可能成為AI模型開發的頂峯。

這對OpenAI和Google的下一代模型意味着什麼尚待觀察。美國政府曾提議在發佈新模型前進行自願安全測試，此事件可能再次推動該想法。值得一提的是，Anthropic一直是比任何公司都更倡導AI監管的公司。Sacks在推文中表示，政府重視Anthropic的技術能力，認為問題雖然嚴重但應易解決，“球在Anthropic這邊。”