2026-07-01 04:09 UTC+8站内改写1 分钟阅读更新: 2026-07-01 04:28 UTC+8

Claude Sonnet 5 – 基准测试结果

Anthropic 于 2026 年 6 月发布的 Claude Sonnet 5（自适应推理，最大努力）在人工分析智能指数中得分 53，处于领先水平。该模型支持文本和图像输入，输出文本，具有 100 万 token 的上下文窗口，且定价为每百万 token 输入和输出均为 0.00 美元，极具竞争力。

来源Hacker News AI作者: lucamark

Anthropic 于 2026 年 6 月发布了其最新的推理模型 Claude Sonnet 5（自适应推理，最大努力）。根据人工分析（Artificial Analysis）的评估，该模型在智能指数（Intelligence Index）中获得了 53 分，显著高于同类模型的平均水平（8 分），显示出其卓越的智能水平。

Claude Sonnet 5 是一个推理模型，这意味着它在生成答案前会进行“思考”过程。它支持文本和图像作为输入，输出文本，并拥有高达 100 万 token 的上下文窗口，相当于约 1500 页 A4 纸（12 号 Arial 字体）的内容。这使得它在处理长篇文档或复杂任务时具有明显优势。

在价格方面，Claude Sonnet 5 的输入和输出价格均为每百万 token 0.00 美元，远低于同类模型的平均价格（也标示为 0.00 美元，但可能因其他因素而实际不同）。这种定价策略使其在性价比方面极具吸引力。

该模型在智能指数测试中表现出了极高的冗长性（verbosity），生成了 3 亿个输出 token，而同类模型平均仅为 3700 万个。这意味着 Claude Sonnet 5 往往会生成非常详细和长篇的回答，这对于需要深度分析和详细解释的任务可能是有益的，但也可能导致更高的计算成本。

人工分析智能指数 v4.1 包含了九个评估指标，包括 GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。这些评估覆盖了从智能体工作、编码、科学推理到长上下文推理等多个维度。在子项中，模型在 AA-Briefcase（智能体知识工作）等新基准上也有表现数据。

此外，Claude Sonnet 5 在开放度（Openness）方面得分较低，因为它是一个专有模型。它在速度（每秒输出 token）方面的数据尚未公布，但根据其推理特性，首 token 等待时间可能较长。

总体而言，Claude Sonnet 5 在智能和价格方面都处于领先地位，尤其适合需要高智能和长上下文处理能力的应用场景。然而，其高冗长性意味着用户需要考虑更高的 token 消耗成本。