2026-05-29 07:57 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Claude 4.8炸場！部分能力超過Mythos，支援數百子智慧體並行

Claude最新旗艦Opus 4.8釋出，部分能力超過Mythos，支援動態工作流，可拆解任務給數百個子智慧體並行執行，人類無需頻繁檢查。誠實性大幅提升，程式碼缺陷漏報率降至前代四分之一。

來源量子位作者: 梦晨

Claude 4.8炸場！部分能力超過Mythos，支援數百子智慧體並行 – 量子位

夢晨 2026-05-29 07:57:47

來源：量子位

可以長時間執行任務，人類不用經常回來檢查它的工作

夢晨發自凹非寺量子位 | 公眾號 QbitAI

Claude最新旗艦Opus 4.8釋出。

距離上一版4.7只過了43天。

手快的網友@stevibe已經做出了兩大版本pk演示。

從測評結果來看，終端工程能力和知識工作上進步較大。

也有人補充了與Mythos已知資料的對比，Opus 4.8在部分能力上甚至超過Mythos。

官方特別強調，Opus 4.8可以長時間執行任務，人類不用經常回來檢查它的工作。

多家早期測試企業也給出了反饋。

Cursor的CEO確認Opus 4.8在CursorBench上的表現超越了此前所有Opus模型。

Devin的CEO認為Opus 4.8修復了4.7中被開發者抱怨最多的兩個問題：註釋冗餘和工具呼叫不穩定。

程式碼缺陷漏報率降至前代四分之一

公告稱Opus 4.8最顯著的改進是誠實性。

AI的一大問題是會草率下結論，即使證據不足，也會自信地聲稱取得了進展。

但Opus 4.8更有可能標記出其工作中的不確定性，並且不太可能做出未經證實的斷言。

具體到程式碼任務上，不報告程式碼缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地報告有缺陷的結果”這一行為，在Claude系列中還是首次出現。

在這方面，Opus 4.8的表現甚至超過Mythos。

另外，Opus 4.8發生硬編答案等“過度自信”行為的機率，下降至Opus 4.7的1/10。

不過244頁的System Card中也標記了一個值得持續關注的對齊隱患：

模型在推理文本中出現了越來越多的對評分者的推測傾向。

也就是說，模型可能正在發展出“自己正在被評估”的感知，並據此調整行為。

動態工作流：數百個子智慧體並行

與Opus 4.8同日上線的動態工作流（Dynamic Workflows）功能，目前以研究預覽的形式在Claude Code CLI、桌面版和VS Code擴充套件中提供。

動態工作流的運作方式是：

Claude根據提示詞動態生成一個JavaScript編排指令碼，將任務拆解成子任務，分發給數十甚至數百個並行執行的子智慧體。

這些子智慧體從不同角度處理問題，另一批子智慧體負責反駁前者的發現，整個流程反覆迭代直到結果收斂，最終合併為一個統一的輸出交給使用者。

所有中間結果儲存在指令碼變數中而非對話上下文裡，因此主會話始終保持響應狀態，任務規模再大也不會偏離計劃。進度會持續儲存，即使中途中斷也能從斷點繼續。

這與此前Claude Code中的子智慧體機制有本質區別。

此前的方式是Claude本身逐輪決定下一步做什麼，每個中間結果都要回到對話上下文中，佔用token。

動態工作流則將編排邏輯移入程式碼指令碼，Claude的上下文中只保留最終結果。

Anthropic展示的標杆案例是JavaScript執行時Bun從Zig到Rust的移植。

Bun的創始人Jarred Sumner使用動態工作流完成了這項工作：

一個工作流為Zig程式碼庫中的每個struct欄位對映正確的Rust lifetime，下一個工作流為每個.zig檔案編寫行為一致的.rs移植版本，數百個智慧體並行工作。

隨後透過修復迴圈驅動構建和測試套件直到全部透過。移植完成後，一個隔夜工作流處理了不必要的資料複製，併為每處修改開出PR供最終審查。

整個過程從首次commit到merge耗時11天，產出約75萬行Rust程式碼，99.8%的現有測試套件透過。

該移植目前尚未投入生產環境。不過圍繞這次移植也存在爭議，有開發者指出部分測試被修改以使Rust版本透過，GitHub上也出現了Zig原版中不存在的新錯誤。

Anthropic還提醒，動態工作流的token消耗會明顯高於普通Claude Code會話。

首次觸發工作流時，Claude Code會展示即將執行的內容並要求使用者確認。

使用者可以透過在prompt中使用「workflow」一詞直接啟動，也可以開啟Claude Code的ultracode設定，讓Claude自動判斷何時使用工作流。

最後，Anthropic透露正在開發一款成本更低但能力接近Opus水平的模型。

參考連結：[1]

https://www.anthropic.com/news/claude-opus-4-8[2]

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code[3]

https://x.com/stevibe/status/2060055250128847244?s=20

Claude

夢晨

沙鋼簽約釘釘，讓悟空成為每一位“鋼鐵人”的生產力工具2026-05-28

5篇AI生成的數學論文被接收！00後創始人洪樂潼融資14個億2026-05-28

DeepSeek陳德里開發自動研究Skill，寫一篇論文人類只動腦2小時2026-05-27

中國500萬醫生的新AI：頂刊獨家聯手，卷的就是證據源2026-05-16