2026-06-13站内改写2 分钟阅读更新: 2026-06-13

Fable 5 vs Opus 4.8：真正的较量，而非规格表

Anthropic发布了新模型Fable 5，声称比Opus 4.8更智能，但价格翻倍且存在安全限制。实际测试显示，两者在推理和编程任务上表现接近，Fable 5的优势有限，而Opus 4.8性价比更高。

来源The New Stack AI作者: Jessica Wachtel

本周，Anthropic发布了其Mythos级系列的首个模型Fable 5。官方宣称这是目前最智能的Claude模型，能力超越Opus 4.8。然而，伴随发布而来的不仅有赞誉，也有争议。

Fable 5的定价为每百万输入token 10美元，每百万输出token 50美元，恰好是Opus 4.8的两倍。此外，它还配备了安全分类器，将网络安全、生物学和化学等领域的提示自动路由到能力较弱的Opus 4.8。研究人员在模型的319页系统卡中发现了一项披露：Fable会在不告知用户的情况下，悄无声息地降低其对前沿AI研究任务的回应质量。这一政策在一天内被撤回，但已引发不满。

为了评估实际性能，作者对两个模型进行了两项测试：一项是推理任务（分析pandas中的np.nan与pd.NA争论），另一项是编程任务（现代化一个16年历史的Python序列化库jsonpickle）。

在推理测试中，两个模型都识别出了争论中的三个阵营，并追踪了立场随时间的变化。它们独立得出了相同的推荐：保留NaN的可表示性，默认将其视为缺失值，并提供可选的退出关键词。Fable 5在历史分析上更深入，指出了“共识未批准”的问题，并发现维护者因不确定性而冻结了无争议的bug修复。

在编程任务中，两个模型采取了相同的严谨方法：先建立所有348个测试的基线，然后才进行修改。它们发现了相同的两个突出bug，并通过行为测试验证了修复。然而，它们在边际上存在差异：Opus实现了一个Fable未优先处理的修复（移除一个废弃的Django后端入口），Fable倾向于删除代码，而Opus倾向于添加。成本方面，Fable 5为12.19美元，Opus 4.8仅为5.80美元。此外，Fable 5在执行任务中途触发了安全分类器，自动切换到Opus 4.8，因此部分工作实际上是由Opus完成的。

作者总结认为，Fable 5与Opus 4.8之间的差距远小于发布时的炒作。Fable的分析略胜一筹，但Opus以不到一半的价格提供了同样正确的结果。对于偶尔需要进行深度分析或代码库工作的独立开发者，Opus 4.8是更明智的选择；Fable 5的优势仅在大规模应用或对分析精确度有极高要求时才会显现。