AI News HubLIVE
站内改写

Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行

Claude最新旗舰Opus 4.8发布,部分能力超过Mythos,支持动态工作流,可拆解任务给数百个子智能体并行执行,人类无需频繁检查。诚实性大幅提升,代码缺陷漏报率降至前代四分之一。

文章情报

工程师入门

要点

  • Claude 4.8发布,终端工程和知识工作能力进步,部分超越Mythos
  • 动态工作流:Claude生成编排脚本,数百个子智能体并行处理任务
  • 诚实性改进:代码缺陷漏报率降至1/4,过度自信行为降至1/10
  • Bun从Zig到Rust移植案例:11天产75万行Rust代码,但存在争议

为什么重要

这条新闻值得关注,因为Claude 4.8发布,终端工程和知识工作能力进步,部分超越Mythos。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行 – 量子位

Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行

梦晨 2026-05-29 07:57:47

来源:量子位

可以长时间执行任务,人类不用经常回来检查它的工作

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

Claude最新旗舰Opus 4.8发布。

距离上一版4.7只过了43天。

手快的网友@stevibe已经做出了两大版本pk演示。

从测评结果来看,终端工程能力和知识工作上进步较大。

也有人补充了与Mythos已知数据的对比,Opus 4.8在部分能力上甚至超过Mythos。

官方特别强调,Opus 4.8可以长时间执行任务,人类不用经常回来检查它的工作。

多家早期测试企业也给出了反馈。

Cursor的CEO确认Opus 4.8在CursorBench上的表现超越了此前所有Opus模型。

Devin的CEO认为Opus 4.8修复了4.7中被开发者抱怨最多的两个问题:注释冗余和工具调用不稳定。

代码缺陷漏报率降至前代四分之一

公告称Opus 4.8最显著的改进是诚实性。

AI的一大问题是会草率下结论,即使证据不足,也会自信地声称取得了进展。

但Opus 4.8更有可能标记出其工作中的不确定性,并且不太可能做出未经证实的断言。

具体到代码任务上,不报告代码缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地报告有缺陷的结果”这一行为,在Claude系列中还是首次出现。

在这方面,Opus 4.8的表现甚至超过Mythos。

另外,Opus 4.8发生硬编答案等“过度自信”行为的概率,下降至Opus 4.7的1/10。

不过244页的System Card中也标记了一个值得持续关注的对齐隐患:

模型在推理文本中出现了越来越多的对评分者的推测倾向。

也就是说,模型可能正在发展出“自己正在被评估”的感知,并据此调整行为。

动态工作流:数百个子智能体并行

与Opus 4.8同日上线的动态工作流(Dynamic Workflows)功能,目前以研究预览的形式在Claude Code CLI、桌面版和VS Code扩展中提供。

动态工作流的运作方式是:

Claude根据提示词动态生成一个JavaScript编排脚本,将任务拆解成子任务,分发给数十甚至数百个并行运行的子智能体。

这些子智能体从不同角度处理问题,另一批子智能体负责反驳前者的发现,整个流程反复迭代直到结果收敛,最终合并为一个统一的输出交给用户。

所有中间结果存储在脚本变量中而非对话上下文里,因此主会话始终保持响应状态,任务规模再大也不会偏离计划。进度会持续保存,即使中途中断也能从断点继续。

这与此前Claude Code中的子智能体机制有本质区别。

此前的方式是Claude本身逐轮决定下一步做什么,每个中间结果都要回到对话上下文中,占用token。

动态工作流则将编排逻辑移入代码脚本,Claude的上下文中只保留最终结果。

Anthropic展示的标杆案例是JavaScript运行时Bun从Zig到Rust的移植。

Bun的创始人Jarred Sumner使用动态工作流完成了这项工作:

一个工作流为Zig代码库中的每个struct字段映射正确的Rust lifetime,下一个工作流为每个.zig文件编写行为一致的.rs移植版本,数百个智能体并行工作。

随后通过修复循环驱动构建和测试套件直到全部通过。移植完成后,一个隔夜工作流处理了不必要的数据拷贝,并为每处修改开出PR供最终审查。

整个过程从首次commit到merge耗时11天,产出约75万行Rust代码,99.8%的现有测试套件通过。

该移植目前尚未投入生产环境。不过围绕这次移植也存在争议,有开发者指出部分测试被修改以使Rust版本通过,GitHub上也出现了Zig原版中不存在的新错误。

Anthropic还提醒,动态工作流的token消耗会明显高于普通Claude Code会话。

首次触发工作流时,Claude Code会展示即将运行的内容并要求用户确认。

用户可以通过在prompt中使用「workflow」一词直接启动,也可以开启Claude Code的ultracode设置,让Claude自动判断何时使用工作流。

最后,Anthropic透露正在开发一款成本更低但能力接近Opus水平的模型。

参考链接:[1]

https://www.anthropic.com/news/claude-opus-4-8[2]

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code[3]

https://x.com/stevibe/status/2060055250128847244?s=20

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Claude

梦晨

沙钢签约钉钉,让悟空成为每一位“钢铁人”的生产力工具2026-05-28

5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿2026-05-28

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时2026-05-27

中国500万医生的新AI:顶刊独家联手,卷的就是证据源2026-05-16

相关阅读

ChatGPT最强竞品重磅升级,免费可用!第一手实测在此,网友:有个性

不用排队,邮箱注册即可登录

衡宇2023-07-12

Anthropuc Claude

Claude版Manus只用10天搓出,代码全AI写的!网友:小扎140亿并购像冤大头

还需要人类来规划、设计、让AI反复尝试

梦晨2026-01-14

Claude

Claude编程支持一键共享,第一批网友已经开始晒作品了

网友:OpenAI在干啥?

克雷西2024-07-10

Claude

Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了

通用+推理二合一,手动调节思考时长

衡宇2025-02-14

Claude 大模型 推理模型

大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

闻乐2025-06-20

AI大模型 Claude 苹果

Anthropic出手!AI的内心独白,曝光了

原来Claude早就识破了人类的套路(doge)

一水2026-05-08

Claude

热门文章

刚刚,国产AI自己造了AI,全球首例!

2026-05-26

融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅

2026-05-22

卡帕西Anthropic最新头衔:技术员工(MTS)

2026-05-26

李飞飞再出手,空间智能的ImageNet来了

2026-05-22

80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法

2026-05-22

扫码关注量子位

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1