Anthropic發佈Opus 4.8,誠實成為殺手鐧
Anthropic最新版Claude模型Opus 4.8主打誠實特性,更少做出無根據聲明,更善於承認不確定性。同時引入動態工作流功能,可協調數百個子代理完成大規模任務。定價不變,快速模式降價三倍。
文章情報
要點
- Claude Opus 4.8在誠實度上顯著提升,錯誤率降低約4倍
- 動態工作流可自動規劃並運行數百個並行子代理,驗證結果後反饋
- 快速模式速度提升2.5倍,價格降低至原先的三分之一
- 標準模式定價保持不變:輸入每百萬token 5美元,輸出每百萬token 25美元
為甚麼重要
這條新聞值得關注,因為Claude Opus 4.8在誠實度上顯著提升,錯誤率降低約4倍。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Anthropic於週四正式發佈並推出Claude Opus 4.8,這是其最新一代大型語言模型。與以往版本不同,Opus 4.8的核心賣點並非計算速度或性能提升,而是“誠實”。該公司在博客文章中表示:“Opus 4.8最顯著的改進之一就是它的誠實性。”
根據Anthropic的評估,Opus 4.8做出無根據聲明的可能性更小,並且在不確定答案時更傾向於坦率告知用户。具體而言,該模型在代碼審查中遺漏缺陷的概率比前代降低了約4倍。Spotify的工程師Tom Pritchard已測試過該模型,並稱讚道:“Claude Opus 4.8的判斷力明顯更好。在Claude Code中,它會提出正確的問題,捕捉自身錯誤,在計劃不合理時提出質疑,並在複雜的多服務探索中逐步建立信心,然後再進行重大更改。”
Opus 4.8延續了此前版本中的“努力程度”設置,允許用户調節模型投入問題的計算資源。在Claude Code中,默認的高努力模式在保持與Opus 4.7相似token消耗的同時,實現了更優性能。該功能現已擴展至Claude.ai和Cowork,用户可選擇更高努力以獲得更深入思考,或更低努力以換取更快的響應速度。
最引人注目的新特性是動態工作流,目前以研究預覽形式推出。該功能使Opus 4.8能夠自主規劃任務,在一個會話中運行數百個並行子代理,並在彙報前驗證輸出結果。Anthropic以跨越數十萬行代碼的代碼庫遷移為例,展示了其處理超大規模任務的能力。子代理會根據任務進展動態調整優先級和行動,而非固守預設計劃。這種自我糾錯機制與誠實理念一脈相承——當協調數百個代理時,用户無法逐一監督,模型必須能主動識別不確定性、錯誤假設和失敗輸出。動態工作流將面向Enterprise、Team和Max計劃的Claude Code用户開放。
定價方面,標準模式的token計費維持不變(輸入每百萬token 5美元,輸出每百萬token 25美元)。但快速模式(運行速度為標準模式的2.5倍)的價格降低至前代產品的三分之一。Anthropic表示,Opus 4.8即日起可通過Claude聊天界面和API(模型名稱為claude-opus-4-8)使用。