2026-07-01 05:37 UTC+8站内改写2 分钟阅读更新: 2026-07-01 05:59 UTC+8

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

Anthropic发布了Claude Sonnet 5，这是其最强的中端代理模型，在多项基准测试中超越前代Sonnet 4.6，并缩小了与旗舰Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性价比极高，但高努力水平下成本可能超过Opus 4.8。它已作为Free和Pro计划的默认模型，并可通过API调用。

来源MarkTechPost作者: Asif Razzaq

Anthropic于2026年6月30日正式发布了Claude Sonnet 5，定位为最具代理能力的中端模型。该模型能够自主规划、驱动浏览器和终端，并在长时间任务中保持自主运行。Sonnet 5即日起成为Free和Pro计划的默认模型，Max、Team和Enterprise用户也可选择使用，同时已在Claude Code和Claude平台上线。

Sonnet 5在各项基准测试中均超越了前代Sonnet 4.6。在智能编码基准SWE-bench Pro上，Sonnet 5得分为63.2%，高于Sonnet 4.6的58.1%，但仍低于Opus 4.8的69.2%。在计算机使用测试OSWorld-Verified中，Sonnet 5达到81.2%，而Sonnet 4.6为78.5%。在Terminal-Bench 2.1上，Sonnet 5取得80.4%的成绩，较Sonnet 4.6的67.0%有显著提升。在带工具的“人类最后考试”(HLE)中，Sonnet 5得分为57.4%，几乎与Opus 4.8的57.9%持平。值得注意的是，在知识工作基准GDPval-AA v2上，Sonnet 5以1,618分略胜Opus 4.8的1,615分，这是其唯一超越旗舰模型的领域。

Sonnet 5引入了“努力水平”(effort levels)概念，包括低、中、高和超高四档。更高的努力水平会消耗更多推理token，从而提升质量，但也增加了成本。在低和中努力水平下，Sonnet 5提供了此前Sonnet定价无法达到的质量，性价比突出。然而，在超高努力水平下，其成本可能超过Opus 4.8，而质量仍略逊一筹。因此，Anthropic建议将Sonnet 5应用于大多数智能编码、工具使用和知识工作场景，将Opus 4.8保留给对准确性要求极高的任务，而Haiku 4.5则适用于高吞吐、低延迟的需求。

定价方面，Sonnet 5的输入价格为每百万token $2，输出价格为$10，此为2026年8月31日前的推广价。标准价格随后调整为输入$3、输出$15。相比之下，Opus 4.8的定价为输入$5、输出$25。Sonnet 5的Token化器与Opus 4.7相同，同一文本的Token数可能增加至1.35倍，需在成本估算中注意。

早期用户报告了多种应用案例。在软件工程中，Sonnet 5能够一步完成从复现错误到实现修复的完整流程。在业务自动化中，它能处理如更新Salesforce账户并发送营销邮件的多步骤任务。在数据探索中，ClickHouse代理利用其快速推理能力实时查询数据并生成洞察。

社区反应呈现分化。官方渠道强调其以Sonnet定价提供顶级性能，开发者phillipcarter称其为“工作马的又一次优秀增量更新”。但批评者指出，在标准定价下性价比可能不及Opus 4.8，甚至与GLM 5.2等模型相比没有明显优势。也有用户期待Haiku系列得到更新。

总体而言，Sonnet 5是一款平衡成本与性能的中端模型，适合绝大多数日常任务，但旗舰Opus 4.8在核心准确性和极端复杂任务中仍保持领先。