Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8:智能編碼基準測試、API定價及成本-性能權衡對比
Anthropic發佈了Claude Sonnet 5,這是其最強的中端代理模型,在多項基準測試中超越前代Sonnet 4.6,並縮小了與旗艦Opus 4.8的差距。Sonnet 5引入了努力水平(effort levels)以控制推理成本,在低/中努力水平下性價比極高,但高努力水平下成本可能超過Opus 4.8。它已作為Free和Pro計劃的默認模型,並可通過API調用。
Anthropic於2026年6月30日正式發佈了Claude Sonnet 5,定位為最具代理能力的中端模型。該模型能夠自主規劃、驅動瀏覽器和終端,並在長時間任務中保持自主運行。Sonnet 5即日起成為Free和Pro計劃的默認模型,Max、Team和Enterprise用户也可選擇使用,同時已在Claude Code和Claude平台上線。
Sonnet 5在各項基準測試中均超越了前代Sonnet 4.6。在智能編碼基準SWE-bench Pro上,Sonnet 5得分為63.2%,高於Sonnet 4.6的58.1%,但仍低於Opus 4.8的69.2%。在計算機使用測試OSWorld-Verified中,Sonnet 5達到81.2%,而Sonnet 4.6為78.5%。在Terminal-Bench 2.1上,Sonnet 5取得80.4%的成績,較Sonnet 4.6的67.0%有顯著提升。在帶工具的“人類最後考試”(HLE)中,Sonnet 5得分為57.4%,幾乎與Opus 4.8的57.9%持平。值得注意的是,在知識工作基準GDPval-AA v2上,Sonnet 5以1,618分略勝Opus 4.8的1,615分,這是其唯一超越旗艦模型的領域。
Sonnet 5引入了“努力水平”(effort levels)概念,包括低、中、高和超高四檔。更高的努力水平會消耗更多推理token,從而提升質量,但也增加了成本。在低和中努力水平下,Sonnet 5提供了此前Sonnet定價無法達到的質量,性價比突出。然而,在超高努力水平下,其成本可能超過Opus 4.8,而質量仍略遜一籌。因此,Anthropic建議將Sonnet 5應用於大多數智能編碼、工具使用和知識工作場景,將Opus 4.8保留給對準確性要求極高的任務,而Haiku 4.5則適用於高吞吐、低延遲的需求。
定價方面,Sonnet 5的輸入價格為每百萬token $2,輸出價格為$10,此為2026年8月31日前的推廣價。標準價格隨後調整為輸入$3、輸出$15。相比之下,Opus 4.8的定價為輸入$5、輸出$25。Sonnet 5的Token化器與Opus 4.7相同,同一文本的Token數可能增加至1.35倍,需在成本估算中注意。
早期用户報告了多種應用案例。在軟件工程中,Sonnet 5能夠一步完成從復現錯誤到實現修復的完整流程。在業務自動化中,它能處理如更新Salesforce賬户併發送營銷郵件的多步驟任務。在數據探索中,ClickHouse代理利用其快速推理能力實時查詢數據並生成洞察。
社區反應呈現分化。官方渠道強調其以Sonnet定價提供頂級性能,開發者phillipcarter稱其為“工作馬的又一次優秀增量更新”。但批評者指出,在標準定價下性價比可能不及Opus 4.8,甚至與GLM 5.2等模型相比沒有明顯優勢。也有用户期待Haiku系列得到更新。
總體而言,Sonnet 5是一款平衡成本與性能的中端模型,適合絕大多數日常任務,但旗艦Opus 4.8在核心準確性和極端複雜任務中仍保持領先。