Claude Opus 4.8 釋出:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙
Anthropic 釋出了其旗艦模型 Opus 4.8,新功能包括使用者可控制 Claude 的努力程度、動態工作流支援大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支援和減少欺騙方面有顯著改進。
文章情報
要點
- 使用者可調節 Claude 的“努力”程度,平衡響應質量與速度。
- 動態工作流(研究預覽)允許 Claude 在單個會話中並行執行數百個子代理,完成大規模程式碼遷移。
- 快速模式成本降低至之前的三分之一。
- 模型誠實度提升約4倍,欺騙率大幅下降。
為什麼重要
這條新聞值得關注,因為使用者可調節 Claude 的“努力”程度,平衡響應質量與速度。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
週四,Anthropic 釋出了其旗艦模型的最新版本 Opus 4.8。該版本引入了多項重要功能:使用者現在可以控制 Claude 的“努力”程度,從而在響應質量和速度之間進行權衡;動態工作流功能(研究預覽)讓 Claude 能夠規劃任務並並行執行數百個子代理,適用於程式碼庫規模的遷移;快速模式的價格降至此前模型的三分之一。
在基準測試方面,Opus 4.8 在大部分測試中超越了前代 Opus 4.7,以及 GPT-5.5 和 Gemini 3.1 Pro,但在代理終端編碼上仍落後於 OpenAI 的模型(低3.6%)。Anthropic 強調,該模型在代理編碼中得分69.2%,遠高於 Opus 4.7 的64.3%和 GPT-5.5 的58.65%。
Anthropic 的對齊團隊表示,Opus 4.8 在親社會特質方面達到了新高,特別是在支援使用者自主性和使用者最佳利益方面。模型的欺騙率和與濫用合作的比例“顯著低於”前代,接近此前被稱為“訓練過的最佳對齊模型”Claude Mythos Preview。此外,Opus 4.8 的誠實度提高了約四倍,即在生成的程式碼中遺漏缺陷的可能性降低了約四倍。
回顧歷史,Opus 系列在過去一年中經歷了多次迭代:從2025年5月的 Opus 4(被稱為“世界最佳編碼模型”),到8月的 Opus 4.1(小幅改進),11月的 Opus 4.5(重新奪回編碼王冠),再到2026年2月的 Opus 4.6(自適應思考與100萬 token 上下文視窗,但引發長上下文定價爭議),以及4月的 Opus 4.7(改進視覺、記憶和指令遵循,但使用者報告自相矛盾響應和效能下降,被 Anthropic 自身描述為“廣泛能力較差”)。Opus 4.8 的釋出正值使用者對 Anthropic 近期政策(如 Claude Code 代理檢視和 SDK 賬單拆分)感到不滿之際。
與此同時,網路傳聞暗示 Anthropic 可能很快釋出 Sonnet 4.8 和 Mythos 1。