AI News HubLIVE
站内改写

Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體並行

Claude最新旗艦Opus 4.8發佈,部分能力超過Mythos,支持動態工作流,可拆解任務給數百個子智能體並行執行,人類無需頻繁檢查。誠實性大幅提升,代碼缺陷漏報率降至前代四分之一。

文章情報

工程師入門

要點

  • Claude 4.8發佈,終端工程和知識工作能力進步,部分超越Mythos
  • 動態工作流:Claude生成編排腳本,數百個子智能體並行處理任務
  • 誠實性改進:代碼缺陷漏報率降至1/4,過度自信行為降至1/10
  • Bun從Zig到Rust移植案例:11天產75萬行Rust代碼,但存在爭議

為甚麼重要

這條新聞值得關注,因為Claude 4.8發佈,終端工程和知識工作能力進步,部分超越Mythos。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體並行 – 量子位

Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體並行

夢晨 2026-05-29 07:57:47

來源:量子位

可以長時間執行任務,人類不用經常回來檢查它的工作

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI

Claude最新旗艦Opus 4.8發佈。

距離上一版4.7只過了43天。

手快的網友@stevibe已經做出了兩大版本pk演示。

從測評結果來看,終端工程能力和知識工作上進步較大。

也有人補充了與Mythos已知數據的對比,Opus 4.8在部分能力上甚至超過Mythos。

官方特別強調,Opus 4.8可以長時間執行任務,人類不用經常回來檢查它的工作。

多家早期測試企業也給出了反饋。

Cursor的CEO確認Opus 4.8在CursorBench上的表現超越了此前所有Opus模型。

Devin的CEO認為Opus 4.8修復了4.7中被開發者抱怨最多的兩個問題:註釋冗餘和工具調用不穩定。

代碼缺陷漏報率降至前代四分之一

公告稱Opus 4.8最顯著的改進是誠實性。

AI的一大問題是會草率下結論,即使證據不足,也會自信地聲稱取得了進展。

但Opus 4.8更有可能標記出其工作中的不確定性,並且不太可能做出未經證實的斷言。

具體到代碼任務上,不報告代碼缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地報告有缺陷的結果”這一行為,在Claude系列中還是首次出現。

在這方面,Opus 4.8的表現甚至超過Mythos。

另外,Opus 4.8發生硬編答案等“過度自信”行為的概率,下降至Opus 4.7的1/10。

不過244頁的System Card中也標記了一個值得持續關注的對齊隱患:

模型在推理文本中出現了越來越多的對評分者的推測傾向。

也就是説,模型可能正在發展出“自己正在被評估”的感知,並據此調整行為。

動態工作流:數百個子智能體並行

與Opus 4.8同日上線的動態工作流(Dynamic Workflows)功能,目前以研究預覽的形式在Claude Code CLI、桌面版和VS Code擴展中提供。

動態工作流的運作方式是:

Claude根據提示詞動態生成一個JavaScript編排腳本,將任務拆解成子任務,分發給數十甚至數百個並行運行的子智能體。

這些子智能體從不同角度處理問題,另一批子智能體負責反駁前者的發現,整個流程反覆迭代直到結果收斂,最終合併為一個統一的輸出交給用户。

所有中間結果存儲在腳本變量中而非對話上下文裏,因此主會話始終保持響應狀態,任務規模再大也不會偏離計劃。進度會持續保存,即使中途中斷也能從斷點繼續。

這與此前Claude Code中的子智能體機制有本質區別。

此前的方式是Claude本身逐輪決定下一步做什麼,每個中間結果都要回到對話上下文中,佔用token。

動態工作流則將編排邏輯移入代碼腳本,Claude的上下文中只保留最終結果。

Anthropic展示的標杆案例是JavaScript運行時Bun從Zig到Rust的移植。

Bun的創始人Jarred Sumner使用動態工作流完成了這項工作:

一個工作流為Zig代碼庫中的每個struct字段映射正確的Rust lifetime,下一個工作流為每個.zig文件編寫行為一致的.rs移植版本,數百個智能體並行工作。

隨後通過修復循環驅動構建和測試套件直到全部通過。移植完成後,一個隔夜工作流處理了不必要的數據拷貝,併為每處修改開出PR供最終審查。

整個過程從首次commit到merge耗時11天,產出約75萬行Rust代碼,99.8%的現有測試套件通過。

該移植目前尚未投入生產環境。不過圍繞這次移植也存在爭議,有開發者指出部分測試被修改以使Rust版本通過,GitHub上也出現了Zig原版中不存在的新錯誤。

Anthropic還提醒,動態工作流的token消耗會明顯高於普通Claude Code會話。

首次觸發工作流時,Claude Code會展示即將運行的內容並要求用户確認。

用户可以通過在prompt中使用「workflow」一詞直接啓動,也可以開啓Claude Code的ultracode設置,讓Claude自動判斷何時使用工作流。

最後,Anthropic透露正在開發一款成本更低但能力接近Opus水平的模型。

參考鏈接:[1]

https://www.anthropic.com/news/claude-opus-4-8[2]

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code[3]

https://x.com/stevibe/status/2060055250128847244?s=20

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

Claude

夢晨

沙鋼簽約釘釘,讓悟空成為每一位“鋼鐵人”的生產力工具2026-05-28

5篇AI生成的數學論文被接收!00後創始人洪樂潼融資14個億2026-05-28

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時2026-05-27

中國500萬醫生的新AI:頂刊獨家聯手,卷的就是證據源2026-05-16

相關閲讀

ChatGPT最強競品重磅升級,免費可用!第一手實測在此,網友:有個性

不用排隊,郵箱註冊即可登錄

衡宇2023-07-12

Anthropuc Claude

Claude版Manus只用10天搓出,代碼全AI寫的!網友:小扎140億併購像冤大頭

還需要人類來規劃、設計、讓AI反覆嘗試

夢晨2026-01-14

Claude

Claude編程支持一鍵共享,第一批網友已經開始曬作品了

網友:OpenAI在幹啥?

克雷西2024-07-10

Claude

Claude 4被曝發佈在即!被DeepSeek逼得都把大招拿出來了

通用+推理二合一,手動調節思考時長

衡宇2025-02-14

Claude 大模型 推理模型

大模型參與推理崩潰論戰!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

聞樂2025-06-20

AI大模型 Claude 蘋果

Anthropic出手!AI的內心獨白,曝光了

原來Claude早就識破了人類的套路(doge)

一水2026-05-08

Claude

熱門文章

剛剛,國產AI自己造了AI,全球首例!

2026-05-26

融資700億!DeepSeek Code真要來了,ACM金牌大神崔添翼掛帥

2026-05-22

卡帕西Anthropic最新頭銜:技術員工(MTS)

2026-05-26

李飛飛再出手,空間智能的ImageNet來了

2026-05-22

80集短劇,3天拍完:當電影人下場做Agent,影視生產迎來了“最懂行”的解法

2026-05-22

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1