Claude Sonnet 5 – 基准测试结果
Anthropic 于 2026 年 6 月发布的 Claude Sonnet 5(自适应推理,最大努力)在人工分析智能指数中得分 53,处于领先水平。该模型支持文本和图像输入,输出文本,具有 100 万 token 的上下文窗口,且定价为每百万 token 输入和输出均为 0.00 美元,极具竞争力。
Anthropic 于 2026 年 6 月发布了其最新的推理模型 Claude Sonnet 5(自适应推理,最大努力)。根据人工分析(Artificial Analysis)的评估,该模型在智能指数(Intelligence Index)中获得了 53 分,显著高于同类模型的平均水平(8 分),显示出其卓越的智能水平。
Claude Sonnet 5 是一个推理模型,这意味着它在生成答案前会进行“思考”过程。它支持文本和图像作为输入,输出文本,并拥有高达 100 万 token 的上下文窗口,相当于约 1500 页 A4 纸(12 号 Arial 字体)的内容。这使得它在处理长篇文档或复杂任务时具有明显优势。
在价格方面,Claude Sonnet 5 的输入和输出价格均为每百万 token 0.00 美元,远低于同类模型的平均价格(也标示为 0.00 美元,但可能因其他因素而实际不同)。这种定价策略使其在性价比方面极具吸引力。
该模型在智能指数测试中表现出了极高的冗长性(verbosity),生成了 3 亿个输出 token,而同类模型平均仅为 3700 万个。这意味着 Claude Sonnet 5 往往会生成非常详细和长篇的回答,这对于需要深度分析和详细解释的任务可能是有益的,但也可能导致更高的计算成本。
人工分析智能指数 v4.1 包含了九个评估指标,包括 GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。这些评估覆盖了从智能体工作、编码、科学推理到长上下文推理等多个维度。在子项中,模型在 AA-Briefcase(智能体知识工作)等新基准上也有表现数据。
此外,Claude Sonnet 5 在开放度(Openness)方面得分较低,因为它是一个专有模型。它在速度(每秒输出 token)方面的数据尚未公布,但根据其推理特性,首 token 等待时间可能较长。
总体而言,Claude Sonnet 5 在智能和价格方面都处于领先地位,尤其适合需要高智能和长上下文处理能力的应用场景。然而,其高冗长性意味着用户需要考虑更高的 token 消耗成本。