2026-07-01 07:35 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 08:30 UTC+8

Claude Sonnet 5：強大的代理性能，但每任務成本更高

Anthropic 的 Claude Sonnet 5 在人工智能分析智能指數中得分 53，較上一代提升 6 分，與 GPT-5.5（高推理）持平，但落後於 Opus 4.7 和 4.8。其每任務成本為 2.29 美元，比 Opus 4.8 高出約 15%，主要由於 token 用量增加。在代理知識工作基準測試中，Sonnet 5 與 Opus 4.8 相當甚至更優，但在推理和知識密集型任務上仍遜色於更大模型。Sonnet 5 支持 100 萬 token 上下文窗口，定價 3/15 美元每百萬 token，並新增了“xhigh”努力級別。

來源Hacker News AI作者: himata4113

2026 年 6 月 30 日，人工智能分析發佈了對 Anthropic 最新模型 Claude Sonnet 5 的評測。該模型在人工智能分析智能指數中取得了 53 分，較上一代 Sonnet 4.6 提升了 6 分，與 GPT-5.5（高推理設置）持平，但略低於 Opus 4.7 和 4.8。在代理性能方面，Sonnet 5 表現出色，在知識工作基準測試中與 Opus 4.8 相當甚至更優。

然而，出色的性能伴隨着更高的成本。Sonnet 5 每任務成本為 2.29 美元，比 Sonnet 4.6 高出約 2 倍，甚至比 Opus 4.8 還高出 15%。這並非由於輸入/輸出 token 定價上漲（仍為 3/15 美元每百萬 token），而是因為模型在任務中使用了更多 token——Sonnet 5 在智能指數任務中平均使用的輸出 token 比 Sonnet 4.6 多 40%。值得注意的是，Anthropic 提供了促銷定價（2/10 美元每百萬 token），有效期至 2026 年 9 月 1 日。

在知識工作負載方面，Sonnet 5 表現強勁。它在 AA-Briefcase 和 GDPval-AA 基準測試中領先於 Opus 4.8，僅次於尚未廣泛可用的 Claude Fable 5。這些基準測試評估模型在複雜項目中的專業輸出能力，使用了開源代理框架 Stirrup。Sonnet 5 在多個努力級別下表現出不同行為：最高努力級別相比低努力級別，在 GDPval-AA 上使用了約 6 倍的代理輪次。

在傳統推理和知識密集型任務上，Sonnet 5 仍有追趕空間。在 CritPt（一個前沿物理推理基準）上，Sonnet 5 得分為 17%，雖然比前代提高了 14 個百分點，但仍落後於 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。在其他基準上，Sonnet 5 有顯著提升：Terminal-Bench v2.1 提高 9 分，Humanity's Last Exam 提高 10 分，SciCode 提高 7 分。

Sonnet 5 保留了 100 萬 token 的上下文窗口，並新增了“xhigh”努力級別，使得總努力級別達到五個（max、xhigh、high、medium、low），與 Opus 4.8 一致。緩存定價方面，緩存寫入溢價 25%（每百萬 token 3.75 美元），生存時間 5 分鐘；緩存命中享有 90% 折扣（每百萬 token 0.3 美元）。