2026-07-01 05:37 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 05:59 UTC+8

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

Anthropic發佈了Claude Sonnet 5，這是其最強的中端代理模型，在多項基準測試中超越前代Sonnet 4.6，並縮小了與旗艦Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性價比極高，但高努力水平下成本可能超過Opus 4.8。它已作為Free和Pro計劃的默認模型，並可通過API調用。

來源MarkTechPost作者: Asif Razzaq

Anthropic於2026年6月30日正式發佈了Claude Sonnet 5，定位為最具代理能力的中端模型。該模型能夠自主規劃、驅動瀏覽器和終端，並在長時間任務中保持自主運行。Sonnet 5即日起成為Free和Pro計劃的默認模型，Max、Team和Enterprise用户也可選擇使用，同時已在Claude Code和Claude平台上線。

Sonnet 5在各項基準測試中均超越了前代Sonnet 4.6。在智能編碼基準SWE-bench Pro上，Sonnet 5得分為63.2%，高於Sonnet 4.6的58.1%，但仍低於Opus 4.8的69.2%。在計算機使用測試OSWorld-Verified中，Sonnet 5達到81.2%，而Sonnet 4.6為78.5%。在Terminal-Bench 2.1上，Sonnet 5取得80.4%的成績，較Sonnet 4.6的67.0%有顯著提升。在帶工具的“人類最後考試”(HLE)中，Sonnet 5得分為57.4%，幾乎與Opus 4.8的57.9%持平。值得注意的是，在知識工作基準GDPval-AA v2上，Sonnet 5以1,618分略勝Opus 4.8的1,615分，這是其唯一超越旗艦模型的領域。

Sonnet 5引入了“努力水平”(effort levels)概念，包括低、中、高和超高四檔。更高的努力水平會消耗更多推理token，從而提升質量，但也增加了成本。在低和中努力水平下，Sonnet 5提供了此前Sonnet定價無法達到的質量，性價比突出。然而，在超高努力水平下，其成本可能超過Opus 4.8，而質量仍略遜一籌。因此，Anthropic建議將Sonnet 5應用於大多數智能編碼、工具使用和知識工作場景，將Opus 4.8保留給對準確性要求極高的任務，而Haiku 4.5則適用於高吞吐、低延遲的需求。

定價方面，Sonnet 5的輸入價格為每百萬token $2，輸出價格為$10，此為2026年8月31日前的推廣價。標準價格隨後調整為輸入$3、輸出$15。相比之下，Opus 4.8的定價為輸入$5、輸出$25。Sonnet 5的Token化器與Opus 4.7相同，同一文本的Token數可能增加至1.35倍，需在成本估算中注意。

早期用户報告了多種應用案例。在軟件工程中，Sonnet 5能夠一步完成從復現錯誤到實現修復的完整流程。在業務自動化中，它能處理如更新Salesforce賬户併發送營銷郵件的多步驟任務。在數據探索中，ClickHouse代理利用其快速推理能力實時查詢數據並生成洞察。

社區反應呈現分化。官方渠道強調其以Sonnet定價提供頂級性能，開發者phillipcarter稱其為“工作馬的又一次優秀增量更新”。但批評者指出，在標準定價下性價比可能不及Opus 4.8，甚至與GLM 5.2等模型相比沒有明顯優勢。也有用户期待Haiku系列得到更新。

總體而言，Sonnet 5是一款平衡成本與性能的中端模型，適合絕大多數日常任務，但旗艦Opus 4.8在核心準確性和極端複雜任務中仍保持領先。