Claude Opus 4.8 釋出:全新升級,更高效、更智慧
Anthropic 釋出了 Claude Opus 4.8,這是其旗艦模型的最新版本。該版本在基準測試、協作能力、誠實性等方面均有顯著提升,並引入了努力程度控制、動態工作流等功能。Opus 4.8 在編碼、代理任務、推理和知識工作測試中表現優於前代,且價格不變。同時,Anthropic 宣佈了多項新功能和未來計劃,包括即將推出的更高智慧模型。
文章情報
要點
- Claude Opus 4.8 在多個基準測試中全面超越 Opus 4.7,尤其在代理任務和誠實性方面進步顯著
- 新功能包括努力程度控制、Claude Code 動態工作流,以及 API 新特性
- 定價保持不變,快速模式價格降低至原來的三分之一
- 未來將釋出比 Opus 更智慧的 Mythos 類模型
為什麼重要
這條新聞值得關注,因為Claude Opus 4.8 在多個基準測試中全面超越 Opus 4.7,尤其在代理任務和誠實性方面進步顯著。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Anthropic 於 2026 年 5 月 28 日正式釋出了 Claude Opus 4.8,這是其旗艦 AI 模型的最新升級版本。基於 Opus 4.7 的強大基礎,Opus 4.8 在多個基準測試中取得了更好的成績,同時成為更高效的協作夥伴。新模型即日起可用,定價不變,繼續以每百萬輸入令牌 5 美元、每百萬輸出令牌 25 美元的價格提供服務。
Opus 4.8 的一大亮點是顯著提升了誠實性。早期測試者反饋,該模型更傾向於主動標記工作中的不確定性,而非做出無根據的斷言。Anthropic 的評估顯示,Opus 4.8 在程式碼審查中遺漏缺陷的機率比前代降低了約四倍。在對齊評估中,該模型在支援使用者自主性、維護使用者利益等親社會特質上達到了新高,而欺騙或協助濫用等不當行為的比率則大幅低於 Opus 4.7,與公司最安全的模型 Claude Mythos Preview 相當。
在能力方面,Opus 4.8 在編碼、代理任務、推理和實用知識工作等測試中均展現出領先效能。多個早期測試者給出了積極評價:在 Super-Agent 基準測試中,Opus 4.8 是唯一一個完成所有案例端到端執行的模型;在 CursorBench 測試中,它超越了所有前代模型。在特定領域,如法律代理測試,Opus 4.8 取得了最高分,也是首個在全面標準上突破 10% 的模型;在計算機使用和瀏覽器代理方面,其 Online-Mind2Web 得分達到 84%,顯著領先於 Opus 4.7 和 GPT-5.5。
伴隨 Opus 4.8 的釋出,Anthropic 還推出了一系列新功能:Claude Code 中新增的“動態工作流”功能(研究預覽版)允許模型在一個會話中計劃並執行數百個並行子代理,適用於大規模程式碼遷移等複雜任務;claude.ai 和 Cowork 中新增了努力程度控制,使用者可根據需求調整模型回答的思考深度,從快速響應到深度思考;Messages API 現在接受訊息陣列內的系統條目,使開發者能夠在任務中途更新模型指令而不破壞提示快取。
此外,Opus 4.8 的快速模式價格大幅降低,從之前的每百萬輸入令牌 30 美元、輸出令牌 150 美元降至 10 美元和 50 美元,使得追求速度的使用者可以更經濟地使用。Anthropic 還透露,正在透過 Project Glasswing 專案開發比 Opus 更智慧的模型,其中 Claude Mythos Preview 已用於網路安全工作,預計在未來幾周內向所有客戶推出。
Claude Opus 4.8 即日起可透過 Claude API(模型 ID:claude-opus-4-8)、claude.ai 以及各平臺使用。開發者和企業使用者可透過團隊、企業及 Max 計劃訪問包括動態工作流在內的全部新功能。