2026-05-29 07:59 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Claude Opus 4.8：'适度但切实的改进'

Anthropic发布了Claude Opus 4.8，定位为对前代产品的适度但切实改进。主要亮点包括诚实性提升（减少无依据断言，代码错误遗漏率降低四倍），以及支持对话中修改系统提示等新功能。定价未变，但快速模式价格显著降低。

Anthropic今日发布了其最新的语言模型Claude Opus 4.8。与许多高调宣称“重大突破”的AI发布不同，该公司在公告中坦承这是一个“适度但切实的改进”（a modest but tangible improvement）。这种诚实的态度贯穿了整个更新。

Opus 4.8最显著的提升在于其诚实性。Anthropic表示，新模型在训练中更加注重避免做出无法支持的断言。早期测试者报告称，Opus 4.8更倾向于标记其工作中的不确定性，减少无根据的主张。内部评估显示，Opus 4.8在代码审查中遗漏缺陷的可能性比前代降低了约四倍。系统卡也证实，在多项基准测试中，Opus 4.8的错误率（事实幻觉的直接衡量指标）是六款模型中最低的——这主要归功于它对不确定问题选择不回答，而不是强行给出正确答案。

在技术细节上，Opus 4.8保持了与前代相同的定价：每百万输入令牌5美元，每百万输出令牌25美元。不过，“快速模式”（Fast Mode）的价格翻倍至10/50美元，但相比前代快模式（30/150美元）已是显著降低。快模式目前仅对研究预览中的组织开放。

知识截止日期和训练数据截止日期均为2026年1月，与4.7相同。上下文窗口仍为100万令牌，最大输出128,000令牌。

值得关注的新功能包括“对话中系统消息”（mid-conversation system messages）。Opus 4.8允许在对话的用户轮次之后插入角色为“system”的消息，从而可以在不重写整个系统提示的情况下动态更新指令。这有助于在长时间对话中保留缓存命中，并降低智能体循环的输入成本。此外，提示缓存最小长度从4.7的4,096令牌降至1,024令牌，使更多提示能够受益于缓存优化。

Opus 4.8还提供了五种思考级别（low、medium、high、xhigh、max），用于控制模型在推理时的深度。作者还利用不同级别生成了自行车上的鹈鹕图像，展示了各级别之间的差异——其中max级别效果最佳，但成本也最高（25个输入令牌和17,167个输出令牌，总计约43美分）。

总体而言，Claude Opus 4.8不是一个颠覆性的版本，但它在关键领域的改进——特别是诚实性和新功能——使其成为值得关注的更新。Anthropic也表示，他们正在开发能够以更低成本提供类似能力的模型。