Anthropic 发布 Claude Opus 4.8
Anthropic 发布了 Claude Opus 4.8,相比 Opus 4.7 在编程、代理工作、推理和知识工作方面有所提升。新功能包括努力控制、动态工作流和 Messages API 实时更新。定价不变,标准版每百万代币输入/输出 5/25 美元,快速版 10/50 美元。早期测试显示成本与 GPT-5.5 相当,工具步骤更少。公司还透露了未来路线图,包括 Mythos 级模型和网络安全项目 Glasswing。
文章情报
要点
- Claude Opus 4.8 在编程、代理工作、推理和知识工作方面优于 Opus 4.7。
- 新增努力控制、动态工作流和 Messages API 实时更新功能。
- 定价不变:标准模式 $5/$25 每百万代币,快速模式 $10/$50。
- Anthropic 预览未来 Mythos 级模型和 Project Glasswing。
为什么重要
这条新闻值得关注,因为Claude Opus 4.8 在编程、代理工作、推理和知识工作方面优于 Opus 4.7。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Anthropic 近日发布了 Claude Opus 4.8,这是对其前代版本 Opus 4.7 的升级。据官方介绍,新模型在编程、代理工作、推理以及知识工作等多个方面均有所改进。用户可以通过 claude.ai、Claude Code 以及 Claude API(API 名称为 claude-opus-4-8)使用该模型。
此外,Anthropic 还对产品线进行了调整。claude.ai 和 Cowork 的用户现在可以设置 Claude 在响应中投入的努力程度,这实质上影响着模型消耗的代币数量。Claude Code 新增了动态工作流功能,能够自动规划工作、并行运行子代理、验证输出并向用户报告结果。最后,Messages API 支持对消息数组进行实时更改,允许开发者在任务进行中更新指令,而不会破坏提示缓存或需要单独的用户轮次。
在定价方面,Claude Opus 4.8 的标准模式(非快速模式)价格保持不变,仍为每百万输入代币 5 美元、每百万输出代币 25 美元。快速模式的价格则是标准模式的两倍,即每百万输入代币 10 美元、每百万输出代币 50 美元,但速度提升至 2.5 倍。
Anthropic 将 Opus 4.8 定位为专为编程和代理工作流设计的模型,它能够在上下文中使用工具并检查自身工作。与 Opus 4.7 相比,Opus 4.8 在编程、代理技能、推理和办公工作等多个基准测试中均有所提升。公司还提供了系统卡供用户查阅更多技术细节。
在正式发布前,多家公司已对 Opus 4.8 进行了测试,涵盖软件开发、法律、金融和研究等领域。测试者们对平台的代理工作流给予了积极评价,其中一家测试机构指出,在运行内部基准测试时,其成本与 GPT-5.5 相当。CursorBench 的评论称,Opus 4.8 使用更少的工具步骤即可达到相同的输出水平。
Anthropic 表示,Opus 4.8 相比前代 Opus 4.7,传递有缺陷代码而不加评论的可能性降低了四倍。同时,该模型表现出更低的欺骗率或纵容滥用的倾向,与 Claude Mythos Preview 相当。
努力控制功能帮助用户管理质量、速度和代币消耗之间的权衡。Opus 4.8 默认设置为高努力,但在编程任务中,高默认设置仅使用与 Opus 4.7 相当的代币数量,但性能更优。用户还可以选择“xhigh”模式以应对需要更多计算的任务。Anthropic 已提高 Claude Code 的速率限制以支持更高的代币使用。
Claude Code 中的动态工作流专为大型代码库设计,能够迁移数十万行代码。这些功能目前处于研究预览阶段,仅在企业版、团队版和 Max 版计划中可用。
Messages API 允许在代理运行期间更新指令,通过修改消息数组来更新权限、更改代币预算或上下文,而代理则继续工作。
Anthropic 还借此发布暗示正在开发能以更低成本提供当前水平能力的模型,并将发布比当前 Opus 平台更好的模型。其路线图包括 Project Glasswing,该项目下的一组组织正在使用 Claude Mythos Preview 进行网络安全扫描。Anthropic 表示,该能力级别的模型在向所有客户发布之前需要更强的安全防护。他们预计在未来几周内向客户推出“Mythos 级”模型。
4.8 版本中的额外控制将向用户揭示成本与努力之间的权衡,因为公司正在从订阅制向基于代币的计费模式过渡。