Claude Sonnet 5 – 基準測試結果
Anthropic 於 2026 年 6 月釋出的 Claude Sonnet 5(自適應推理,最大努力)在人工分析智慧指數中得分 53,處於領先水平。該模型支援文本和影像輸入,輸出文本,具有 100 萬 token 的上下文視窗,且定價為每百萬 token 輸入和輸出均為 0.00 美元,極具競爭力。
Anthropic 於 2026 年 6 月釋出了其最新的推理模型 Claude Sonnet 5(自適應推理,最大努力)。根據人工分析(Artificial Analysis)的評估,該模型在智慧指數(Intelligence Index)中獲得了 53 分,顯著高於同類模型的平均水平(8 分),顯示出其卓越的智慧水平。
Claude Sonnet 5 是一個推理模型,這意味著它在生成答案前會進行“思考”過程。它支援文本和影像作為輸入,輸出文本,並擁有高達 100 萬 token 的上下文視窗,相當於約 1500 頁 A4 紙(12 號 Arial 字型)的內容。這使得它在處理長篇文件或複雜任務時具有明顯優勢。
在價格方面,Claude Sonnet 5 的輸入和輸出價格均為每百萬 token 0.00 美元,遠低於同類模型的平均價格(也標示為 0.00 美元,但可能因其他因素而實際不同)。這種定價策略使其在價效比方面極具吸引力。
該模型在智慧指數測試中表現出了極高的冗長性(verbosity),生成了 3 億個輸出 token,而同類模型平均僅為 3700 萬個。這意味著 Claude Sonnet 5 往往會生成非常詳細和長篇的回答,這對於需要深度分析和詳細解釋的任務可能是有益的,但也可能導致更高的計算成本。
人工分析智慧指數 v4.1 包含了九個評估指標,包括 GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。這些評估覆蓋了從智慧體工作、編碼、科學推理到長上下文推理等多個維度。在子項中,模型在 AA-Briefcase(智慧體知識工作)等新基準上也有表現資料。
此外,Claude Sonnet 5 在開放度(Openness)方面得分較低,因為它是一個專有模型。它在速度(每秒輸出 token)方面的資料尚未公佈,但根據其推理特性,首 token 等待時間可能較長。
總體而言,Claude Sonnet 5 在智慧和價格方面都處於領先地位,尤其適合需要高智慧和長上下文處理能力的應用場景。然而,其高冗長性意味著使用者需要考慮更高的 token 消耗成本。