Claude Opus 4.8 發佈:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙
Anthropic 發佈了其旗艦模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、動態工作流支持大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支持和減少欺騙方面有顯著改進。
文章情報
要點
- 用户可調節 Claude 的“努力”程度,平衡響應質量與速度。
- 動態工作流(研究預覽)允許 Claude 在單個會話中並行運行數百個子代理,完成大規模代碼遷移。
- 快速模式成本降低至之前的三分之一。
- 模型誠實度提升約4倍,欺騙率大幅下降。
為甚麼重要
這條新聞值得關注,因為用户可調節 Claude 的“努力”程度,平衡響應質量與速度。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
週四,Anthropic 發佈了其旗艦模型的最新版本 Opus 4.8。該版本引入了多項重要功能:用户現在可以控制 Claude 的“努力”程度,從而在響應質量和速度之間進行權衡;動態工作流功能(研究預覽)讓 Claude 能夠規劃任務並並行運行數百個子代理,適用於代碼庫規模的遷移;快速模式的價格降至此前模型的三分之一。
在基準測試方面,Opus 4.8 在大部分測試中超越了前代 Opus 4.7,以及 GPT-5.5 和 Gemini 3.1 Pro,但在代理終端編碼上仍落後於 OpenAI 的模型(低3.6%)。Anthropic 強調,該模型在代理編碼中得分69.2%,遠高於 Opus 4.7 的64.3%和 GPT-5.5 的58.65%。
Anthropic 的對齊團隊表示,Opus 4.8 在親社會特質方面達到了新高,特別是在支持用户自主性和用户最佳利益方面。模型的欺騙率和與濫用合作的比例“顯著低於”前代,接近此前被稱為“訓練過的最佳對齊模型”Claude Mythos Preview。此外,Opus 4.8 的誠實度提高了約四倍,即在生成的代碼中遺漏缺陷的可能性降低了約四倍。
回顧歷史,Opus 系列在過去一年中經歷了多次迭代:從2025年5月的 Opus 4(被稱為“世界最佳編碼模型”),到8月的 Opus 4.1(小幅改進),11月的 Opus 4.5(重新奪回編碼王冠),再到2026年2月的 Opus 4.6(自適應思考與100萬 token 上下文窗口,但引發長上下文定價爭議),以及4月的 Opus 4.7(改進視覺、記憶和指令遵循,但用户報告自相矛盾響應和性能下降,被 Anthropic 自身描述為“廣泛能力較差”)。Opus 4.8 的發佈正值用户對 Anthropic 近期政策(如 Claude Code 代理視圖和 SDK 賬單拆分)感到不滿之際。
與此同時,網絡傳聞暗示 Anthropic 可能很快發佈 Sonnet 4.8 和 Mythos 1。