AI News HubLIVE
站内改写1 分钟阅读

Claude Sonnet 5:强大的代理性能,但每任务成本更高

Anthropic 的 Claude Sonnet 5 在人工智能分析智能指数中得分 53,较上一代提升 6 分,与 GPT-5.5(高推理)持平,但落后于 Opus 4.7 和 4.8。其每任务成本为 2.29 美元,比 Opus 4.8 高出约 15%,主要由于 token 用量增加。在代理知识工作基准测试中,Sonnet 5 与 Opus 4.8 相当甚至更优,但在推理和知识密集型任务上仍逊色于更大模型。Sonnet 5 支持 100 万 token 上下文窗口,定价 3/15 美元每百万 token,并新增了“xhigh”努力级别。

来源Hacker News AI作者: himata4113

2026 年 6 月 30 日,人工智能分析发布了对 Anthropic 最新模型 Claude Sonnet 5 的评测。该模型在人工智能分析智能指数中取得了 53 分,较上一代 Sonnet 4.6 提升了 6 分,与 GPT-5.5(高推理设置)持平,但略低于 Opus 4.7 和 4.8。在代理性能方面,Sonnet 5 表现出色,在知识工作基准测试中与 Opus 4.8 相当甚至更优。

然而,出色的性能伴随着更高的成本。Sonnet 5 每任务成本为 2.29 美元,比 Sonnet 4.6 高出约 2 倍,甚至比 Opus 4.8 还高出 15%。这并非由于输入/输出 token 定价上涨(仍为 3/15 美元每百万 token),而是因为模型在任务中使用了更多 token——Sonnet 5 在智能指数任务中平均使用的输出 token 比 Sonnet 4.6 多 40%。值得注意的是,Anthropic 提供了促销定价(2/10 美元每百万 token),有效期至 2026 年 9 月 1 日。

在知识工作负载方面,Sonnet 5 表现强劲。它在 AA-Briefcase 和 GDPval-AA 基准测试中领先于 Opus 4.8,仅次于尚未广泛可用的 Claude Fable 5。这些基准测试评估模型在复杂项目中的专业输出能力,使用了开源代理框架 Stirrup。Sonnet 5 在多个努力级别下表现出不同行为:最高努力级别相比低努力级别,在 GDPval-AA 上使用了约 6 倍的代理轮次。

在传统推理和知识密集型任务上,Sonnet 5 仍有追赶空间。在 CritPt(一个前沿物理推理基准)上,Sonnet 5 得分为 17%,虽然比前代提高了 14 个百分点,但仍落后于 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。在其他基准上,Sonnet 5 有显著提升:Terminal-Bench v2.1 提高 9 分,Humanity's Last Exam 提高 10 分,SciCode 提高 7 分。

Sonnet 5 保留了 100 万 token 的上下文窗口,并新增了“xhigh”努力级别,使得总努力级别达到五个(max、xhigh、high、medium、low),与 Opus 4.8 一致。缓存定价方面,缓存写入溢价 25%(每百万 token 3.75 美元),生存时间 5 分钟;缓存命中享有 90% 折扣(每百万 token 0.3 美元)。

Claude Sonnet 5:强大的代理性能,但每任务成本更高 | AI News Hub