AI News HubLIVE
站内改写2 分钟阅读

【AINews】今日Sonnet 5,明日Fable 5

Anthropic发布Claude Sonnet 5,定位为最具代理能力的中端模型,具备百万token上下文窗口,标准定价与促销价并行。第三方评测显示其在编程和代理基准上有显著提升,但部分用户因任务级成本增加及缺少Fable 5发布而失望。Fable/Mythos 5经政府批准后重新上线。

Anthropic今日正式发布Claude Sonnet 5,作为其默认的中端前沿模型,并立即在Claude、Claude Code、API及生态系统合作伙伴中上线。官方称其为“最具代理能力的Sonnet”,强调其在规划、浏览器/终端工具使用以及自主执行方面的提升,这些能力以往需要“更大、更贵的模型”。Sonnet 5具备100万token的上下文窗口,标准定价为每百万输入token 3美元、输出token 15美元,但推出促销价至8月31日/9月1日:输入2美元/百万、输出10美元/百万。此外,Anthropic还发布了Linux版Claude Desktop(Ubuntu/Debian测试版),支持Claude Code/Cowork/chat,但Linux版本不包含Computer Use功能。Managed Agents也获得更新,包括流式会话增量、会话级覆盖、webhook事件、反向分页、凭证注入作用域以及可观测性标签页。

Sonnet 5的发布伴随着大量传闻,早期传言指向Sonnet 5与Fable 5的同步发布。有迹象显示Anthropic曾计划将“Fable 5”置于独立的信用系统下,并引入身份验证,暗示其访问将受到更多限制。这引发了Sonnet 5可能作为弱化版而Fable 5作为强受限版发布的猜测,尤其在欧洲可能面临区域访问问题。然而,最终发布的只有Sonnet 5,Fable 5的缺席成为部分用户讨论的焦点。随后,Fable/Mythos 5在与政府合作后获得重新批准,但并未与Sonnet 5同日发布。

第三方评测普遍认可Sonnet 5相较于前代Sonnet 4.6的提升,但对其是否足以命名为“5.0”存在分歧。Cursor报告称Sonnet 5在CursorBench上达到57%,高于Sonnet 4.6的49%。Cognition的FrontierCode Extended测试显示Sonnet 5获得53.8%的分数和57.6%的通过率,超过Opus 4.8。Cline则指出Sonnet 5在Terminal-Bench上达到Opus 4.8级别性能,成本却不到一半,且对提示注入攻击有更好的抵抗力。然而,Artificial Analysis的测试显示,Sonnet 5在智能指数上仅比前代高6分,排名第五,与GPT-5.5高推理模式相当,但仍落后于Opus 4.7/4.8。更关键的是,由于Sonnet 5每个任务平均消耗约6.9万输出token,是前代的1.4倍,其任务级成本在标准定价下为2.29美元,是Sonnet 4.6的两倍,甚至比Opus 4.8还贵15%。这引发了关于有效成本的广泛讨论。

社区反应分化:支持者认为Sonnet 5是适合并行工作流和长期代理的生产型改进,编程和安全性提升显著;批评者则指出其命名过度,实际提升有限,且在任务成本上缺乏竞争力,Fable 5的缺席更令期待落空。总体而言,Sonnet 5的发布体现了Anthropic在代理能力上的持续推进,但其定价和定位策略仍需市场检验。