AI News HubLIVE
站内改写1 分钟阅读

Anthropic Sonnet 5:缩小与Opus 4.8的差距,八月底前低价使用

Anthropic推出Sonnet 5,性能接近Opus 4.8,提供优惠价格至8月底。该模型在推理、工具使用和编码方面有显著提升,安全风险较低。

来源The New Stack AI作者: Frederic Lardinois

Anthropic于周二发布了Sonnet 5,这是其主流Sonnet系列的最新模型。该公司称Sonnet 5是“最具代理能力的Sonnet模型”,在基准测试中,其性能接近Opus 4.8,相比Sonnet 4.6有显著提升。Anthropic特别指出,它在推理、工具使用、软件编码和知识工作等任务上表现更好。

与之前的Sonnet发布不同,Sonnet 5并未完全超越最新版的更大模型Opus,但性能足够接近,使其成为Opus 4.8的更经济替代品——因为Opus 5可能很快推出(假设它不会像Fable 5那样被推迟)。Anthropic强调,Opus 4.8在更高推理水平下仍能提供更高准确性,但Sonnet 5为开发者提供了更低价且质量更高的选项。

在最高推理水平(Extra High)下,Sonnet 5在OSWorld-Verified和代理搜索BrowseComp基准测试中的表现与Opus 4.8的中高水平相当。但由于在此水平上运行成本更高,Opus 4.8在某些任务上仍是更好的选择。在所有可用基准测试中,Sonnet 5始终优于Sonnet 4.6。

然而,基准测试只能反映部分情况。模型行为也会影响用户体验。Anthropic表示,测试者注意到该模型现在通常能完成复杂任务,“而之前的Sonnet模型会提前停止”。

为了吸引开发者,Anthropic提供了API优惠价格:每百万输入令牌2美元,每百万输出令牌10美元,持续到8月31日。之后价格将恢复为每百万输入令牌3美元、每百万输出令牌15美元。同时,Anthropic还提高了Chat、Cowork和Claude Code用户的速率限制,以应对更高努力水平带来的更高令牌使用量。

在AI安全方面,Anthropic强调并未“刻意训练Sonnet 5应对网络任务”,尽管它能处理一些常规网络任务,但性能远低于Opus 4.8和Mythos。Anthropic保持了该模型的安全防护措施,但由于风险较低,这些措施不如Fable 5那样严格。例如,在尝试寻找Firefox 147漏洞时,“Sonnet 5从未能开发出完整的利用程序,但部分成功率略高于其前代Sonnet 4.6”。因此,美国政府将该模型撤出市场的风险非常低。