AI News HubLIVE
站內改寫1 分鐘閱讀

Claude Sonnet 5:強大的代理性能,但每任務成本更高

Anthropic 的 Claude Sonnet 5 在人工智能分析智能指數中得分 53,較上一代提升 6 分,與 GPT-5.5(高推理)持平,但落後於 Opus 4.7 和 4.8。其每任務成本為 2.29 美元,比 Opus 4.8 高出約 15%,主要由於 token 用量增加。在代理知識工作基準測試中,Sonnet 5 與 Opus 4.8 相當甚至更優,但在推理和知識密集型任務上仍遜色於更大模型。Sonnet 5 支持 100 萬 token 上下文窗口,定價 3/15 美元每百萬 token,並新增了“xhigh”努力級別。

來源Hacker News AI作者: himata4113

2026 年 6 月 30 日,人工智能分析發佈了對 Anthropic 最新模型 Claude Sonnet 5 的評測。該模型在人工智能分析智能指數中取得了 53 分,較上一代 Sonnet 4.6 提升了 6 分,與 GPT-5.5(高推理設置)持平,但略低於 Opus 4.7 和 4.8。在代理性能方面,Sonnet 5 表現出色,在知識工作基準測試中與 Opus 4.8 相當甚至更優。

然而,出色的性能伴隨着更高的成本。Sonnet 5 每任務成本為 2.29 美元,比 Sonnet 4.6 高出約 2 倍,甚至比 Opus 4.8 還高出 15%。這並非由於輸入/輸出 token 定價上漲(仍為 3/15 美元每百萬 token),而是因為模型在任務中使用了更多 token——Sonnet 5 在智能指數任務中平均使用的輸出 token 比 Sonnet 4.6 多 40%。值得注意的是,Anthropic 提供了促銷定價(2/10 美元每百萬 token),有效期至 2026 年 9 月 1 日。

在知識工作負載方面,Sonnet 5 表現強勁。它在 AA-Briefcase 和 GDPval-AA 基準測試中領先於 Opus 4.8,僅次於尚未廣泛可用的 Claude Fable 5。這些基準測試評估模型在複雜項目中的專業輸出能力,使用了開源代理框架 Stirrup。Sonnet 5 在多個努力級別下表現出不同行為:最高努力級別相比低努力級別,在 GDPval-AA 上使用了約 6 倍的代理輪次。

在傳統推理和知識密集型任務上,Sonnet 5 仍有追趕空間。在 CritPt(一個前沿物理推理基準)上,Sonnet 5 得分為 17%,雖然比前代提高了 14 個百分點,但仍落後於 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。在其他基準上,Sonnet 5 有顯著提升:Terminal-Bench v2.1 提高 9 分,Humanity's Last Exam 提高 10 分,SciCode 提高 7 分。

Sonnet 5 保留了 100 萬 token 的上下文窗口,並新增了“xhigh”努力級別,使得總努力級別達到五個(max、xhigh、high、medium、low),與 Opus 4.8 一致。緩存定價方面,緩存寫入溢價 25%(每百萬 token 3.75 美元),生存時間 5 分鐘;緩存命中享有 90% 折扣(每百萬 token 0.3 美元)。