AI News HubLIVE
站内改写

Anthropic发布Opus 4.8,诚实成为杀手锏

Anthropic最新版Claude模型Opus 4.8主打诚实特性,更少做出无根据声明,更善于承认不确定性。同时引入动态工作流功能,可协调数百个子代理完成大规模任务。定价不变,快速模式降价三倍。

文章情报

工程师入门

要点

  • Claude Opus 4.8在诚实度上显著提升,错误率降低约4倍
  • 动态工作流可自动规划并运行数百个并行子代理,验证结果后反馈
  • 快速模式速度提升2.5倍,价格降低至原先的三分之一
  • 标准模式定价保持不变:输入每百万token 5美元,输出每百万token 25美元

为什么重要

这条新闻值得关注,因为Claude Opus 4.8在诚实度上显著提升,错误率降低约4倍。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Anthropic于周四正式发布并推出Claude Opus 4.8,这是其最新一代大型语言模型。与以往版本不同,Opus 4.8的核心卖点并非计算速度或性能提升,而是“诚实”。该公司在博客文章中表示:“Opus 4.8最显著的改进之一就是它的诚实性。”

根据Anthropic的评估,Opus 4.8做出无根据声明的可能性更小,并且在不确定答案时更倾向于坦率告知用户。具体而言,该模型在代码审查中遗漏缺陷的概率比前代降低了约4倍。Spotify的工程师Tom Pritchard已测试过该模型,并称赞道:“Claude Opus 4.8的判断力明显更好。在Claude Code中,它会提出正确的问题,捕捉自身错误,在计划不合理时提出质疑,并在复杂的多服务探索中逐步建立信心,然后再进行重大更改。”

Opus 4.8延续了此前版本中的“努力程度”设置,允许用户调节模型投入问题的计算资源。在Claude Code中,默认的高努力模式在保持与Opus 4.7相似token消耗的同时,实现了更优性能。该功能现已扩展至Claude.ai和Cowork,用户可选择更高努力以获得更深入思考,或更低努力以换取更快的响应速度。

最引人注目的新特性是动态工作流,目前以研究预览形式推出。该功能使Opus 4.8能够自主规划任务,在一个会话中运行数百个并行子代理,并在汇报前验证输出结果。Anthropic以跨越数十万行代码的代码库迁移为例,展示了其处理超大规模任务的能力。子代理会根据任务进展动态调整优先级和行动,而非固守预设计划。这种自我纠错机制与诚实理念一脉相承——当协调数百个代理时,用户无法逐一监督,模型必须能主动识别不确定性、错误假设和失败输出。动态工作流将面向Enterprise、Team和Max计划的Claude Code用户开放。

定价方面,标准模式的token计费维持不变(输入每百万token 5美元,输出每百万token 25美元)。但快速模式(运行速度为标准模式的2.5倍)的价格降低至前代产品的三分之一。Anthropic表示,Opus 4.8即日起可通过Claude聊天界面和API(模型名称为claude-opus-4-8)使用。