2026-07-01 02:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 02:31 UTC+8

Anthropic Sonnet 5：缩小与Opus 4.8的差距，八月底前低价使用

Anthropic推出Sonnet 5，性能接近Opus 4.8，提供优惠价格至8月底。该模型在推理、工具使用和编码方面有显著提升，安全风险较低。

来源The New Stack AI作者: Frederic Lardinois

Anthropic于周二发布了Sonnet 5，这是其主流Sonnet系列的最新模型。该公司称Sonnet 5是“最具代理能力的Sonnet模型”，在基准测试中，其性能接近Opus 4.8，相比Sonnet 4.6有显著提升。Anthropic特别指出，它在推理、工具使用、软件编码和知识工作等任务上表现更好。

与之前的Sonnet发布不同，Sonnet 5并未完全超越最新版的更大模型Opus，但性能足够接近，使其成为Opus 4.8的更经济替代品——因为Opus 5可能很快推出（假设它不会像Fable 5那样被推迟）。Anthropic强调，Opus 4.8在更高推理水平下仍能提供更高准确性，但Sonnet 5为开发者提供了更低价且质量更高的选项。

在最高推理水平（Extra High）下，Sonnet 5在OSWorld-Verified和代理搜索BrowseComp基准测试中的表现与Opus 4.8的中高水平相当。但由于在此水平上运行成本更高，Opus 4.8在某些任务上仍是更好的选择。在所有可用基准测试中，Sonnet 5始终优于Sonnet 4.6。

然而，基准测试只能反映部分情况。模型行为也会影响用户体验。Anthropic表示，测试者注意到该模型现在通常能完成复杂任务，“而之前的Sonnet模型会提前停止”。

为了吸引开发者，Anthropic提供了API优惠价格：每百万输入令牌2美元，每百万输出令牌10美元，持续到8月31日。之后价格将恢复为每百万输入令牌3美元、每百万输出令牌15美元。同时，Anthropic还提高了Chat、Cowork和Claude Code用户的速率限制，以应对更高努力水平带来的更高令牌使用量。

在AI安全方面，Anthropic强调并未“刻意训练Sonnet 5应对网络任务”，尽管它能处理一些常规网络任务，但性能远低于Opus 4.8和Mythos。Anthropic保持了该模型的安全防护措施，但由于风险较低，这些措施不如Fable 5那样严格。例如，在尝试寻找Firefox 147漏洞时，“Sonnet 5从未能开发出完整的利用程序，但部分成功率略高于其前代Sonnet 4.6”。因此，美国政府将该模型撤出市场的风险非常低。