2026-07-01 07:35 UTC+8站内改写1 分钟阅读更新: 2026-07-01 08:30 UTC+8

Claude Sonnet 5：强大的代理性能，但每任务成本更高

Anthropic 的 Claude Sonnet 5 在人工智能分析智能指数中得分 53，较上一代提升 6 分，与 GPT-5.5（高推理）持平，但落后于 Opus 4.7 和 4.8。其每任务成本为 2.29 美元，比 Opus 4.8 高出约 15%，主要由于 token 用量增加。在代理知识工作基准测试中，Sonnet 5 与 Opus 4.8 相当甚至更优，但在推理和知识密集型任务上仍逊色于更大模型。Sonnet 5 支持 100 万 token 上下文窗口，定价 3/15 美元每百万 token，并新增了“xhigh”努力级别。

来源Hacker News AI作者: himata4113

2026 年 6 月 30 日，人工智能分析发布了对 Anthropic 最新模型 Claude Sonnet 5 的评测。该模型在人工智能分析智能指数中取得了 53 分，较上一代 Sonnet 4.6 提升了 6 分，与 GPT-5.5（高推理设置）持平，但略低于 Opus 4.7 和 4.8。在代理性能方面，Sonnet 5 表现出色，在知识工作基准测试中与 Opus 4.8 相当甚至更优。

然而，出色的性能伴随着更高的成本。Sonnet 5 每任务成本为 2.29 美元，比 Sonnet 4.6 高出约 2 倍，甚至比 Opus 4.8 还高出 15%。这并非由于输入/输出 token 定价上涨（仍为 3/15 美元每百万 token），而是因为模型在任务中使用了更多 token——Sonnet 5 在智能指数任务中平均使用的输出 token 比 Sonnet 4.6 多 40%。值得注意的是，Anthropic 提供了促销定价（2/10 美元每百万 token），有效期至 2026 年 9 月 1 日。

在知识工作负载方面，Sonnet 5 表现强劲。它在 AA-Briefcase 和 GDPval-AA 基准测试中领先于 Opus 4.8，仅次于尚未广泛可用的 Claude Fable 5。这些基准测试评估模型在复杂项目中的专业输出能力，使用了开源代理框架 Stirrup。Sonnet 5 在多个努力级别下表现出不同行为：最高努力级别相比低努力级别，在 GDPval-AA 上使用了约 6 倍的代理轮次。

在传统推理和知识密集型任务上，Sonnet 5 仍有追赶空间。在 CritPt（一个前沿物理推理基准）上，Sonnet 5 得分为 17%，虽然比前代提高了 14 个百分点，但仍落后于 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。在其他基准上，Sonnet 5 有显著提升：Terminal-Bench v2.1 提高 9 分，Humanity's Last Exam 提高 10 分，SciCode 提高 7 分。

Sonnet 5 保留了 100 万 token 的上下文窗口，并新增了“xhigh”努力级别，使得总努力级别达到五个（max、xhigh、high、medium、low），与 Opus 4.8 一致。缓存定价方面，缓存写入溢价 25%（每百万 token 3.75 美元），生存时间 5 分钟；缓存命中享有 90% 折扣（每百万 token 0.3 美元）。