Anthropic推出Claude Mythos/Fable 5,但你最好趕緊試試
Anthropic釋出了其首個普遍可用的Mythos級模型Fable 5,該模型在大多數基準測試中表現出色,但存在使用限制和資料保留政策。
週二,Anthropic釋出了Fable 5,這是其首個普遍可用的Mythos級模型。Fable 5實際上就是公司過去幾週一直在談論的高效能Mythos模型,但增加了防護措施,以確保其不能被用於構建惡意軟體或生物武器等用途。
與此同時,公司還推出了Mythos 5,這是Mythos的更新版本,沒有這些防護措施,但最初僅對Project Glasswing的成員開放。
與Mythos不同,你可以立即使用Fable 5。Anthropic表示,該模型現已透過API(以及Microsoft Foundry、Amazon Bedrock和AWS上的Claude Platform)提供,價格為每百萬輸入代幣10美元,每百萬輸出代幣50美元,是Anthropic當前Opus模型價格的兩倍。
Anthropic稱,Fable 5在概念推理、文件處理以及圖表和表格解讀方面表現更優。
目前,Fable 5也面向Claude Pro、Max、Team以及基於座位的企業訂閱使用者開放,但有一個條件:它在6月22日之後將不可用。從6月23日開始,使用Fable 5將需要消耗使用積分。
原因在於,與Anthropic目前所做的許多事情一樣,是容量問題。Anthropic解釋說:“在此之後——當足夠的容量允許我們這樣做時——我們計劃將Fable 5恢復為訂閱計劃的標準部分。我們打算儘快做到這一點。”
你得到的是一款在幾乎所有基準測試中表現優異——且通常以非常大的優勢領先的模型。在SWE-Bench Pro上,Fable得分80%(而不帶防護的Mythos 5得分為80.4%),遠高於Anthropic自己的Opus 4.8(69.2%),以及OpenAI的GPT 5.5(58.6%)和Google的Gemini 3.1 Pro(54.2%)。
其他基準測試也類似,無論是聚焦於編碼、工具使用、計算機使用還是知識工作。不過,基準測試只能說明部分問題,並不總能反映模型在實際使用中的表現。Anthropic認為,Fable 5和Mythos 5可以比其他模型更長時間地自主工作,並處理更復雜的任務。例如,Stripe讓Fable 5在一天內對一個5000萬行的Ruby程式碼庫進行了現代化改造——該公司表示,這原本需要一個開發團隊兩個月的時間。
部分原因是,正如Anthropic所指出的,新模型可以在長時間執行的任務中“專注於數百萬個代幣”,並利用自己的筆記改進輸出。GitHub的首席產品官Mario Rodriguez也表示,這種更長時間保持專注的能力使Fable 5能夠承擔更復雜的程式設計任務。
在知識工作方面,這種增強的記憶能力也發揮作用,Anthropic稱Fable 5在概念推理、文件處理以及圖表和表格解讀方面更勝一籌。
安全防護顯然是Fable 5的一個關鍵特性。一個風險是,如果Anthropic將模型調得過於保守,模型可能會拒絕太多答案。根據Anthropic的說法,原始Mythos模型過於危險而不能釋出,該公司認為所有Mythos級模型“都需要強大的防護措施以防止濫用,並且覆蓋範圍需要廣泛。防護措施本身必須能夠抵禦持續且複雜的繞過嘗試。”
當模型檢測到潛在濫用時,它不會直接回答這些問題。相反,當檢測到與“網路安全、生物學和化學或蒸餾”相關的請求時,它將把任務交給Opus 4.8。
在我自己的測試中,Fable 5拒絕推理自己的模型卡,很可能是因為其中包含了許多模型本應避免的話題。Anthropic表示,到目前為止,這種情況僅發生在不到5%的Fable會話中,但早期訪問模型的使用者可能並不代表大多數Claude使用者。
使用者在使用Mythos級模型時無法選擇退出資料保留。今後,使用這些模型意味著同意30天的資料保留——否則就不能使用。Anthropic表示不會用這些資料訓練新模型,並且會記錄所有人類訪問。但該公司認為需要這些資料來幫助“防禦複雜和新穎的攻擊(包括新的越獄和跨多個請求的攻擊),並幫助我們識別和減少誤報。”然而,一些企業仍然不希望Anthropic儲存他們的任何資料。
Fable 5顯然是當前市場上最強大的模型。這基本上是所有人的預期,低於預期將是一個重大失望。因此,釋出後的早期反應更多地集中在釋出方式上,包括有限的免費使用視窗和資料保留政策。現在,關鍵問題是該模型能否在實際場景中達到預期效果,而這通常需要幾天時間才能見分曉。