AI News HubLIVE
站内改写

Claude Opus 4.8 发布:努力控制、动态工作流、更便宜的快速模式、更诚实、更少欺骗

Anthropic 发布了其旗舰模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、动态工作流支持大规模编码、快速模式价格降至原来的三分之一。模型在基准测试中领先 GPT-5.5 和 Gemini 3.1 Pro,但在终端编码方面仍落后于 OpenAI。此外,模型在诚实性、自主支持和减少欺骗方面有显著改进。

文章情报

工程师进阶

要点

  • 用户可调节 Claude 的“努力”程度,平衡响应质量与速度。
  • 动态工作流(研究预览)允许 Claude 在单个会话中并行运行数百个子代理,完成大规模代码迁移。
  • 快速模式成本降低至之前的三分之一。
  • 模型诚实度提升约4倍,欺骗率大幅下降。

为什么重要

这条新闻值得关注,因为用户可调节 Claude 的“努力”程度,平衡响应质量与速度。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

周四,Anthropic 发布了其旗舰模型的最新版本 Opus 4.8。该版本引入了多项重要功能:用户现在可以控制 Claude 的“努力”程度,从而在响应质量和速度之间进行权衡;动态工作流功能(研究预览)让 Claude 能够规划任务并并行运行数百个子代理,适用于代码库规模的迁移;快速模式的价格降至此前模型的三分之一。

在基准测试方面,Opus 4.8 在大部分测试中超越了前代 Opus 4.7,以及 GPT-5.5 和 Gemini 3.1 Pro,但在代理终端编码上仍落后于 OpenAI 的模型(低3.6%)。Anthropic 强调,该模型在代理编码中得分69.2%,远高于 Opus 4.7 的64.3%和 GPT-5.5 的58.65%。

Anthropic 的对齐团队表示,Opus 4.8 在亲社会特质方面达到了新高,特别是在支持用户自主性和用户最佳利益方面。模型的欺骗率和与滥用合作的比例“显著低于”前代,接近此前被称为“训练过的最佳对齐模型”Claude Mythos Preview。此外,Opus 4.8 的诚实度提高了约四倍,即在生成的代码中遗漏缺陷的可能性降低了约四倍。

回顾历史,Opus 系列在过去一年中经历了多次迭代:从2025年5月的 Opus 4(被称为“世界最佳编码模型”),到8月的 Opus 4.1(小幅改进),11月的 Opus 4.5(重新夺回编码王冠),再到2026年2月的 Opus 4.6(自适应思考与100万 token 上下文窗口,但引发长上下文定价争议),以及4月的 Opus 4.7(改进视觉、记忆和指令遵循,但用户报告自相矛盾响应和性能下降,被 Anthropic 自身描述为“广泛能力较差”)。Opus 4.8 的发布正值用户对 Anthropic 近期政策(如 Claude Code 代理视图和 SDK 账单拆分)感到不满之际。

与此同时,网络传闻暗示 Anthropic 可能很快发布 Sonnet 4.8 和 Mythos 1。