Anthropic Sonnet 5:縮小與Opus 4.8的差距,八月底前低價使用
Anthropic推出Sonnet 5,性能接近Opus 4.8,提供優惠價格至8月底。該模型在推理、工具使用和編碼方面有顯著提升,安全風險較低。
Anthropic於週二發佈了Sonnet 5,這是其主流Sonnet系列的最新模型。該公司稱Sonnet 5是“最具代理能力的Sonnet模型”,在基準測試中,其性能接近Opus 4.8,相比Sonnet 4.6有顯著提升。Anthropic特別指出,它在推理、工具使用、軟件編碼和知識工作等任務上表現更好。
與之前的Sonnet發佈不同,Sonnet 5並未完全超越最新版的更大模型Opus,但性能足夠接近,使其成為Opus 4.8的更經濟替代品——因為Opus 5可能很快推出(假設它不會像Fable 5那樣被推遲)。Anthropic強調,Opus 4.8在更高推理水平下仍能提供更高準確性,但Sonnet 5為開發者提供了更低價且質量更高的選項。
在最高推理水平(Extra High)下,Sonnet 5在OSWorld-Verified和代理搜索BrowseComp基準測試中的表現與Opus 4.8的中高水平相當。但由於在此水平上運行成本更高,Opus 4.8在某些任務上仍是更好的選擇。在所有可用基準測試中,Sonnet 5始終優於Sonnet 4.6。
然而,基準測試只能反映部分情況。模型行為也會影響用户體驗。Anthropic表示,測試者注意到該模型現在通常能完成複雜任務,“而之前的Sonnet模型會提前停止”。
為了吸引開發者,Anthropic提供了API優惠價格:每百萬輸入令牌2美元,每百萬輸出令牌10美元,持續到8月31日。之後價格將恢復為每百萬輸入令牌3美元、每百萬輸出令牌15美元。同時,Anthropic還提高了Chat、Cowork和Claude Code用户的速率限制,以應對更高努力水平帶來的更高令牌使用量。
在AI安全方面,Anthropic強調並未“刻意訓練Sonnet 5應對網絡任務”,儘管它能處理一些常規網絡任務,但性能遠低於Opus 4.8和Mythos。Anthropic保持了該模型的安全防護措施,但由於風險較低,這些措施不如Fable 5那樣嚴格。例如,在嘗試尋找Firefox 147漏洞時,“Sonnet 5從未能開發出完整的利用程序,但部分成功率略高於其前代Sonnet 4.6”。因此,美國政府將該模型撤出市場的風險非常低。