AI News HubLIVE
站内改写2 分钟阅读

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8:智能编码基准测试、API定价及成本-性能权衡对比

Anthropic发布了Claude Sonnet 5,这是其最强的中端代理模型,在多项基准测试中超越前代Sonnet 4.6,并缩小了与旗舰Opus 4.8的差距。Sonnet 5引入了努力水平(effort levels)以控制推理成本,在低/中努力水平下性价比极高,但高努力水平下成本可能超过Opus 4.8。它已作为Free和Pro计划的默认模型,并可通过API调用。

来源MarkTechPost作者: Asif Razzaq

Anthropic于2026年6月30日正式发布了Claude Sonnet 5,定位为最具代理能力的中端模型。该模型能够自主规划、驱动浏览器和终端,并在长时间任务中保持自主运行。Sonnet 5即日起成为Free和Pro计划的默认模型,Max、Team和Enterprise用户也可选择使用,同时已在Claude Code和Claude平台上线。

Sonnet 5在各项基准测试中均超越了前代Sonnet 4.6。在智能编码基准SWE-bench Pro上,Sonnet 5得分为63.2%,高于Sonnet 4.6的58.1%,但仍低于Opus 4.8的69.2%。在计算机使用测试OSWorld-Verified中,Sonnet 5达到81.2%,而Sonnet 4.6为78.5%。在Terminal-Bench 2.1上,Sonnet 5取得80.4%的成绩,较Sonnet 4.6的67.0%有显著提升。在带工具的“人类最后考试”(HLE)中,Sonnet 5得分为57.4%,几乎与Opus 4.8的57.9%持平。值得注意的是,在知识工作基准GDPval-AA v2上,Sonnet 5以1,618分略胜Opus 4.8的1,615分,这是其唯一超越旗舰模型的领域。

Sonnet 5引入了“努力水平”(effort levels)概念,包括低、中、高和超高四档。更高的努力水平会消耗更多推理token,从而提升质量,但也增加了成本。在低和中努力水平下,Sonnet 5提供了此前Sonnet定价无法达到的质量,性价比突出。然而,在超高努力水平下,其成本可能超过Opus 4.8,而质量仍略逊一筹。因此,Anthropic建议将Sonnet 5应用于大多数智能编码、工具使用和知识工作场景,将Opus 4.8保留给对准确性要求极高的任务,而Haiku 4.5则适用于高吞吐、低延迟的需求。

定价方面,Sonnet 5的输入价格为每百万token $2,输出价格为$10,此为2026年8月31日前的推广价。标准价格随后调整为输入$3、输出$15。相比之下,Opus 4.8的定价为输入$5、输出$25。Sonnet 5的Token化器与Opus 4.7相同,同一文本的Token数可能增加至1.35倍,需在成本估算中注意。

早期用户报告了多种应用案例。在软件工程中,Sonnet 5能够一步完成从复现错误到实现修复的完整流程。在业务自动化中,它能处理如更新Salesforce账户并发送营销邮件的多步骤任务。在数据探索中,ClickHouse代理利用其快速推理能力实时查询数据并生成洞察。

社区反应呈现分化。官方渠道强调其以Sonnet定价提供顶级性能,开发者phillipcarter称其为“工作马的又一次优秀增量更新”。但批评者指出,在标准定价下性价比可能不及Opus 4.8,甚至与GLM 5.2等模型相比没有明显优势。也有用户期待Haiku系列得到更新。

总体而言,Sonnet 5是一款平衡成本与性能的中端模型,适合绝大多数日常任务,但旗舰Opus 4.8在核心准确性和极端复杂任务中仍保持领先。