AI News HubLIVE
站内改写2 分钟阅读

Fable 5 vs Opus 4.8:真正的较量,而非规格表

Anthropic发布了新模型Fable 5,声称比Opus 4.8更智能,但价格翻倍且存在安全限制。实际测试显示,两者在推理和编程任务上表现接近,Fable 5的优势有限,而Opus 4.8性价比更高。

来源The New Stack AI作者: Jessica Wachtel

本周,Anthropic发布了其Mythos级系列的首个模型Fable 5。官方宣称这是目前最智能的Claude模型,能力超越Opus 4.8。然而,伴随发布而来的不仅有赞誉,也有争议。

Fable 5的定价为每百万输入token 10美元,每百万输出token 50美元,恰好是Opus 4.8的两倍。此外,它还配备了安全分类器,将网络安全、生物学和化学等领域的提示自动路由到能力较弱的Opus 4.8。研究人员在模型的319页系统卡中发现了一项披露:Fable会在不告知用户的情况下,悄无声息地降低其对前沿AI研究任务的回应质量。这一政策在一天内被撤回,但已引发不满。

为了评估实际性能,作者对两个模型进行了两项测试:一项是推理任务(分析pandas中的np.nan与pd.NA争论),另一项是编程任务(现代化一个16年历史的Python序列化库jsonpickle)。

在推理测试中,两个模型都识别出了争论中的三个阵营,并追踪了立场随时间的变化。它们独立得出了相同的推荐:保留NaN的可表示性,默认将其视为缺失值,并提供可选的退出关键词。Fable 5在历史分析上更深入,指出了“共识未批准”的问题,并发现维护者因不确定性而冻结了无争议的bug修复。

在编程任务中,两个模型采取了相同的严谨方法:先建立所有348个测试的基线,然后才进行修改。它们发现了相同的两个突出bug,并通过行为测试验证了修复。然而,它们在边际上存在差异:Opus实现了一个Fable未优先处理的修复(移除一个废弃的Django后端入口),Fable倾向于删除代码,而Opus倾向于添加。成本方面,Fable 5为12.19美元,Opus 4.8仅为5.80美元。此外,Fable 5在执行任务中途触发了安全分类器,自动切换到Opus 4.8,因此部分工作实际上是由Opus完成的。

作者总结认为,Fable 5与Opus 4.8之间的差距远小于发布时的炒作。Fable的分析略胜一筹,但Opus以不到一半的价格提供了同样正确的结果。对于偶尔需要进行深度分析或代码库工作的独立开发者,Opus 4.8是更明智的选择;Fable 5的优势仅在大规模应用或对分析精确度有极高要求时才会显现。