Claude Opus 4.8:'适度但切实的改进'
Anthropic发布了Claude Opus 4.8,定位为对前代产品的适度但切实改进。主要亮点包括诚实性提升(减少无依据断言,代码错误遗漏率降低四倍),以及支持对话中修改系统提示等新功能。定价未变,但快速模式价格显著降低。
文章情报
要点
- Anthropic推出Claude Opus 4.8,官方称其为'适度但切实的改进'。
- 诚实性显著提升:模型更少做出无依据断言,代码错误遗漏率降低四倍。
- 新功能包括对话中修改系统提示和更低的提示缓存门槛(1024 tokens)。
- 定价与前代一致,但快速模式价格大幅降低。
为什么重要
这条新闻值得关注,因为Anthropic推出Claude Opus 4.8,官方称其为'适度但切实的改进'。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Anthropic今日发布了其最新的语言模型Claude Opus 4.8。与许多高调宣称“重大突破”的AI发布不同,该公司在公告中坦承这是一个“适度但切实的改进”(a modest but tangible improvement)。这种诚实的态度贯穿了整个更新。
Opus 4.8最显著的提升在于其诚实性。Anthropic表示,新模型在训练中更加注重避免做出无法支持的断言。早期测试者报告称,Opus 4.8更倾向于标记其工作中的不确定性,减少无根据的主张。内部评估显示,Opus 4.8在代码审查中遗漏缺陷的可能性比前代降低了约四倍。系统卡也证实,在多项基准测试中,Opus 4.8的错误率(事实幻觉的直接衡量指标)是六款模型中最低的——这主要归功于它对不确定问题选择不回答,而不是强行给出正确答案。
在技术细节上,Opus 4.8保持了与前代相同的定价:每百万输入令牌5美元,每百万输出令牌25美元。不过,“快速模式”(Fast Mode)的价格翻倍至10/50美元,但相比前代快模式(30/150美元)已是显著降低。快模式目前仅对研究预览中的组织开放。
知识截止日期和训练数据截止日期均为2026年1月,与4.7相同。上下文窗口仍为100万令牌,最大输出128,000令牌。
值得关注的新功能包括“对话中系统消息”(mid-conversation system messages)。Opus 4.8允许在对话的用户轮次之后插入角色为“system”的消息,从而可以在不重写整个系统提示的情况下动态更新指令。这有助于在长时间对话中保留缓存命中,并降低智能体循环的输入成本。此外,提示缓存最小长度从4.7的4,096令牌降至1,024令牌,使更多提示能够受益于缓存优化。
Opus 4.8还提供了五种思考级别(low、medium、high、xhigh、max),用于控制模型在推理时的深度。作者还利用不同级别生成了自行车上的鹈鹕图像,展示了各级别之间的差异——其中max级别效果最佳,但成本也最高(25个输入令牌和17,167个输出令牌,总计约43美分)。
总体而言,Claude Opus 4.8不是一个颠覆性的版本,但它在关键领域的改进——特别是诚实性和新功能——使其成为值得关注的更新。Anthropic也表示,他们正在开发能够以更低成本提供类似能力的模型。