AI News HubLIVE
站内改写

Claude Opus 4.8 发布:全新升级,更高效、更智能

Anthropic 发布了 Claude Opus 4.8,这是其旗舰模型的最新版本。该版本在基准测试、协作能力、诚实性等方面均有显著提升,并引入了努力程度控制、动态工作流等功能。Opus 4.8 在编码、代理任务、推理和知识工作测试中表现优于前代,且价格不变。同时,Anthropic 宣布了多项新功能和未来计划,包括即将推出的更高智能模型。

文章情报

工程师进阶

要点

  • Claude Opus 4.8 在多个基准测试中全面超越 Opus 4.7,尤其在代理任务和诚实性方面进步显著
  • 新功能包括努力程度控制、Claude Code 动态工作流,以及 API 新特性
  • 定价保持不变,快速模式价格降低至原来的三分之一
  • 未来将发布比 Opus 更智能的 Mythos 类模型

为什么重要

这条新闻值得关注,因为Claude Opus 4.8 在多个基准测试中全面超越 Opus 4.7,尤其在代理任务和诚实性方面进步显著。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Anthropic 于 2026 年 5 月 28 日正式发布了 Claude Opus 4.8,这是其旗舰 AI 模型的最新升级版本。基于 Opus 4.7 的强大基础,Opus 4.8 在多个基准测试中取得了更好的成绩,同时成为更高效的协作伙伴。新模型即日起可用,定价不变,继续以每百万输入令牌 5 美元、每百万输出令牌 25 美元的价格提供服务。

Opus 4.8 的一大亮点是显著提升了诚实性。早期测试者反馈,该模型更倾向于主动标记工作中的不确定性,而非做出无根据的断言。Anthropic 的评估显示,Opus 4.8 在代码审查中遗漏缺陷的概率比前代降低了约四倍。在对齐评估中,该模型在支持用户自主性、维护用户利益等亲社会特质上达到了新高,而欺骗或协助滥用等不当行为的比率则大幅低于 Opus 4.7,与公司最安全的模型 Claude Mythos Preview 相当。

在能力方面,Opus 4.8 在编码、代理任务、推理和实用知识工作等测试中均展现出领先性能。多个早期测试者给出了积极评价:在 Super-Agent 基准测试中,Opus 4.8 是唯一一个完成所有案例端到端运行的模型;在 CursorBench 测试中,它超越了所有前代模型。在特定领域,如法律代理测试,Opus 4.8 取得了最高分,也是首个在全面标准上突破 10% 的模型;在计算机使用和浏览器代理方面,其 Online-Mind2Web 得分达到 84%,显著领先于 Opus 4.7 和 GPT-5.5。

伴随 Opus 4.8 的发布,Anthropic 还推出了一系列新功能:Claude Code 中新增的“动态工作流”功能(研究预览版)允许模型在一个会话中计划并运行数百个并行子代理,适用于大规模代码迁移等复杂任务;claude.ai 和 Cowork 中新增了努力程度控制,用户可根据需求调整模型回答的思考深度,从快速响应到深度思考;Messages API 现在接受消息数组内的系统条目,使开发者能够在任务中途更新模型指令而不破坏提示缓存。

此外,Opus 4.8 的快速模式价格大幅降低,从之前的每百万输入令牌 30 美元、输出令牌 150 美元降至 10 美元和 50 美元,使得追求速度的用户可以更经济地使用。Anthropic 还透露,正在通过 Project Glasswing 项目开发比 Opus 更智能的模型,其中 Claude Mythos Preview 已用于网络安全工作,预计在未来几周内向所有客户推出。

Claude Opus 4.8 即日起可通过 Claude API(模型 ID:claude-opus-4-8)、claude.ai 以及各平台使用。开发者和企业用户可通过团队、企业及 Max 计划访问包括动态工作流在内的全部新功能。