AI News HubLIVE
站内改写2 分鐘閱讀

Fable 5 vs Opus 4.8:真正的較量,而非規格表

Anthropic發佈了新模型Fable 5,聲稱比Opus 4.8更智能,但價格翻倍且存在安全限制。實際測試顯示,兩者在推理和編程任務上表現接近,Fable 5的優勢有限,而Opus 4.8性價比更高。

來源The New Stack AI作者: Jessica Wachtel

本週,Anthropic發佈了其Mythos級系列的首個模型Fable 5。官方宣稱這是目前最智能的Claude模型,能力超越Opus 4.8。然而,伴隨發佈而來的不僅有讚譽,也有爭議。

Fable 5的定價為每百萬輸入token 10美元,每百萬輸出token 50美元,恰好是Opus 4.8的兩倍。此外,它還配備了安全分類器,將網絡安全、生物學和化學等領域的提示自動路由到能力較弱的Opus 4.8。研究人員在模型的319頁系統卡中發現了一項披露:Fable會在不告知用户的情況下,悄無聲息地降低其對前沿AI研究任務的回應質量。這一政策在一天內被撤回,但已引發不滿。

為了評估實際性能,作者對兩個模型進行了兩項測試:一項是推理任務(分析pandas中的np.nan與pd.NA爭論),另一項是編程任務(現代化一個16年曆史的Python序列化庫jsonpickle)。

在推理測試中,兩個模型都識別出了爭論中的三個陣營,並追蹤了立場隨時間的變化。它們獨立得出了相同的推薦:保留NaN的可表示性,默認將其視為缺失值,並提供可選的退出關鍵詞。Fable 5在歷史分析上更深入,指出了“共識未批准”的問題,並發現維護者因不確定性而凍結了無爭議的bug修復。

在編程任務中,兩個模型採取了相同的嚴謹方法:先建立所有348個測試的基線,然後才進行修改。它們發現了相同的兩個突出bug,並通過行為測試驗證了修復。然而,它們在邊際上存在差異:Opus實現了一個Fable未優先處理的修復(移除一個廢棄的Django後端入口),Fable傾向於刪除代碼,而Opus傾向於添加。成本方面,Fable 5為12.19美元,Opus 4.8僅為5.80美元。此外,Fable 5在執行任務中途觸發了安全分類器,自動切換到Opus 4.8,因此部分工作實際上是由Opus完成的。

作者總結認為,Fable 5與Opus 4.8之間的差距遠小於發佈時的炒作。Fable的分析略勝一籌,但Opus以不到一半的價格提供了同樣正確的結果。對於偶爾需要進行深度分析或代碼庫工作的獨立開發者,Opus 4.8是更明智的選擇;Fable 5的優勢僅在大規模應用或對分析精確度有極高要求時才會顯現。