2026-05-29 02:08 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Claude Opus 4.8 发布：努力控制、动态工作流、更便宜的快速模式、更诚实、更少欺骗

Anthropic 发布了其旗舰模型 Opus 4.8，新功能包括用户可控制 Claude 的努力程度、动态工作流支持大规模编码、快速模式价格降至原来的三分之一。模型在基准测试中领先 GPT-5.5 和 Gemini 3.1 Pro，但在终端编码方面仍落后于 OpenAI。此外，模型在诚实性、自主支持和减少欺骗方面有显著改进。

来源The New Stack AI作者: Meredith Shubel

周四，Anthropic 发布了其旗舰模型的最新版本 Opus 4.8。该版本引入了多项重要功能：用户现在可以控制 Claude 的“努力”程度，从而在响应质量和速度之间进行权衡；动态工作流功能（研究预览）让 Claude 能够规划任务并并行运行数百个子代理，适用于代码库规模的迁移；快速模式的价格降至此前模型的三分之一。

在基准测试方面，Opus 4.8 在大部分测试中超越了前代 Opus 4.7，以及 GPT-5.5 和 Gemini 3.1 Pro，但在代理终端编码上仍落后于 OpenAI 的模型（低3.6%）。Anthropic 强调，该模型在代理编码中得分69.2%，远高于 Opus 4.7 的64.3%和 GPT-5.5 的58.65%。

Anthropic 的对齐团队表示，Opus 4.8 在亲社会特质方面达到了新高，特别是在支持用户自主性和用户最佳利益方面。模型的欺骗率和与滥用合作的比例“显著低于”前代，接近此前被称为“训练过的最佳对齐模型”Claude Mythos Preview。此外，Opus 4.8 的诚实度提高了约四倍，即在生成的代码中遗漏缺陷的可能性降低了约四倍。

回顾历史，Opus 系列在过去一年中经历了多次迭代：从2025年5月的 Opus 4（被称为“世界最佳编码模型”），到8月的 Opus 4.1（小幅改进），11月的 Opus 4.5（重新夺回编码王冠），再到2026年2月的 Opus 4.6（自适应思考与100万 token 上下文窗口，但引发长上下文定价争议），以及4月的 Opus 4.7（改进视觉、记忆和指令遵循，但用户报告自相矛盾响应和性能下降，被 Anthropic 自身描述为“广泛能力较差”）。Opus 4.8 的发布正值用户对 Anthropic 近期政策（如 Claude Code 代理视图和 SDK 账单拆分）感到不满之际。

与此同时，网络传闻暗示 Anthropic 可能很快发布 Sonnet 4.8 和 Mythos 1。