2026-07-01 04:09 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 04:28 UTC+8

Claude Sonnet 5 – 基準測試結果

Anthropic 於 2026 年 6 月釋出的 Claude Sonnet 5（自適應推理，最大努力）在人工分析智慧指數中得分 53，處於領先水平。該模型支援文本和影像輸入，輸出文本，具有 100 萬 token 的上下文視窗，且定價為每百萬 token 輸入和輸出均為 0.00 美元，極具競爭力。

來源Hacker News AI作者: lucamark

Anthropic 於 2026 年 6 月釋出了其最新的推理模型 Claude Sonnet 5（自適應推理，最大努力）。根據人工分析（Artificial Analysis）的評估，該模型在智慧指數（Intelligence Index）中獲得了 53 分，顯著高於同類模型的平均水平（8 分），顯示出其卓越的智慧水平。

Claude Sonnet 5 是一個推理模型，這意味著它在生成答案前會進行“思考”過程。它支援文本和影像作為輸入，輸出文本，並擁有高達 100 萬 token 的上下文視窗，相當於約 1500 頁 A4 紙（12 號 Arial 字型）的內容。這使得它在處理長篇文件或複雜任務時具有明顯優勢。

在價格方面，Claude Sonnet 5 的輸入和輸出價格均為每百萬 token 0.00 美元，遠低於同類模型的平均價格（也標示為 0.00 美元，但可能因其他因素而實際不同）。這種定價策略使其在價效比方面極具吸引力。

該模型在智慧指數測試中表現出了極高的冗長性（verbosity），生成了 3 億個輸出 token，而同類模型平均僅為 3700 萬個。這意味著 Claude Sonnet 5 往往會生成非常詳細和長篇的回答，這對於需要深度分析和詳細解釋的任務可能是有益的，但也可能導致更高的計算成本。

人工分析智慧指數 v4.1 包含了九個評估指標，包括 GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。這些評估覆蓋了從智慧體工作、編碼、科學推理到長上下文推理等多個維度。在子項中，模型在 AA-Briefcase（智慧體知識工作）等新基準上也有表現資料。

此外，Claude Sonnet 5 在開放度（Openness）方面得分較低，因為它是一個專有模型。它在速度（每秒輸出 token）方面的資料尚未公佈，但根據其推理特性，首 token 等待時間可能較長。

總體而言，Claude Sonnet 5 在智慧和價格方面都處於領先地位，尤其適合需要高智慧和長上下文處理能力的應用場景。然而，其高冗長性意味著使用者需要考慮更高的 token 消耗成本。