2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Fable 5 vs Opus 4.8：真正的較量，而非規格表

Anthropic發佈了新模型Fable 5，聲稱比Opus 4.8更智能，但價格翻倍且存在安全限制。實際測試顯示，兩者在推理和編程任務上表現接近，Fable 5的優勢有限，而Opus 4.8性價比更高。

來源The New Stack AI作者: Jessica Wachtel

本週，Anthropic發佈了其Mythos級系列的首個模型Fable 5。官方宣稱這是目前最智能的Claude模型，能力超越Opus 4.8。然而，伴隨發佈而來的不僅有讚譽，也有爭議。

Fable 5的定價為每百萬輸入token 10美元，每百萬輸出token 50美元，恰好是Opus 4.8的兩倍。此外，它還配備了安全分類器，將網絡安全、生物學和化學等領域的提示自動路由到能力較弱的Opus 4.8。研究人員在模型的319頁系統卡中發現了一項披露：Fable會在不告知用户的情況下，悄無聲息地降低其對前沿AI研究任務的回應質量。這一政策在一天內被撤回，但已引發不滿。

為了評估實際性能，作者對兩個模型進行了兩項測試：一項是推理任務（分析pandas中的np.nan與pd.NA爭論），另一項是編程任務（現代化一個16年曆史的Python序列化庫jsonpickle）。

在推理測試中，兩個模型都識別出了爭論中的三個陣營，並追蹤了立場隨時間的變化。它們獨立得出了相同的推薦：保留NaN的可表示性，默認將其視為缺失值，並提供可選的退出關鍵詞。Fable 5在歷史分析上更深入，指出了“共識未批准”的問題，並發現維護者因不確定性而凍結了無爭議的bug修復。

在編程任務中，兩個模型採取了相同的嚴謹方法：先建立所有348個測試的基線，然後才進行修改。它們發現了相同的兩個突出bug，並通過行為測試驗證了修復。然而，它們在邊際上存在差異：Opus實現了一個Fable未優先處理的修復（移除一個廢棄的Django後端入口），Fable傾向於刪除代碼，而Opus傾向於添加。成本方面，Fable 5為12.19美元，Opus 4.8僅為5.80美元。此外，Fable 5在執行任務中途觸發了安全分類器，自動切換到Opus 4.8，因此部分工作實際上是由Opus完成的。

作者總結認為，Fable 5與Opus 4.8之間的差距遠小於發佈時的炒作。Fable的分析略勝一籌，但Opus以不到一半的價格提供了同樣正確的結果。對於偶爾需要進行深度分析或代碼庫工作的獨立開發者，Opus 4.8是更明智的選擇；Fable 5的優勢僅在大規模應用或對分析精確度有極高要求時才會顯現。