Anthropic 釋出 Claude Opus 4.8
Anthropic 釋出了 Claude Opus 4.8,相比 Opus 4.7 在程式設計、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 即時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網路安全專案 Glasswing。
文章情報
要點
- Claude Opus 4.8 在程式設計、代理工作、推理和知識工作方面優於 Opus 4.7。
- 新增努力控制、動態工作流和 Messages API 即時更新功能。
- 定價不變:標準模式 $5/$25 每百萬代幣,快速模式 $10/$50。
- Anthropic 預覽未來 Mythos 級模型和 Project Glasswing。
為什麼重要
這條新聞值得關注,因為Claude Opus 4.8 在程式設計、代理工作、推理和知識工作方面優於 Opus 4.7。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Anthropic 近日釋出了 Claude Opus 4.8,這是對其前代版本 Opus 4.7 的升級。據官方介紹,新模型在程式設計、代理工作、推理以及知識工作等多個方面均有所改進。使用者可以透過 claude.ai、Claude Code 以及 Claude API(API 名稱為 claude-opus-4-8)使用該模型。
此外,Anthropic 還對產品線進行了調整。claude.ai 和 Cowork 的使用者現在可以設定 Claude 在響應中投入的努力程度,這實質上影響著模型消耗的代幣數量。Claude Code 新增了動態工作流功能,能夠自動規劃工作、並行執行子代理、驗證輸出並向使用者報告結果。最後,Messages API 支援對訊息陣列進行即時更改,允許開發者在任務進行中更新指令,而不會破壞提示快取或需要單獨的使用者輪次。
在定價方面,Claude Opus 4.8 的標準模式(非快速模式)價格保持不變,仍為每百萬輸入代幣 5 美元、每百萬輸出代幣 25 美元。快速模式的價格則是標準模式的兩倍,即每百萬輸入代幣 10 美元、每百萬輸出代幣 50 美元,但速度提升至 2.5 倍。
Anthropic 將 Opus 4.8 定位為專為程式設計和代理工作流設計的模型,它能夠在上下文中使用工具並檢查自身工作。與 Opus 4.7 相比,Opus 4.8 在程式設計、代理技能、推理和辦公工作等多個基準測試中均有所提升。公司還提供了系統卡供使用者查閱更多技術細節。
在正式釋出前,多家公司已對 Opus 4.8 進行了測試,涵蓋軟體開發、法律、金融和研究等領域。測試者們對平臺的代理工作流給予了積極評價,其中一家測試機構指出,在執行內部基準測試時,其成本與 GPT-5.5 相當。CursorBench 的評論稱,Opus 4.8 使用更少的工具步驟即可達到相同的輸出水平。
Anthropic 表示,Opus 4.8 相比前代 Opus 4.7,傳遞有缺陷程式碼而不加評論的可能性降低了四倍。同時,該模型表現出更低的欺騙率或縱容濫用的傾向,與 Claude Mythos Preview 相當。
努力控制功能幫助使用者管理質量、速度和代幣消耗之間的權衡。Opus 4.8 預設設定為高努力,但在程式設計任務中,高預設設定僅使用與 Opus 4.7 相當的代幣數量,但效能更優。使用者還可以選擇“xhigh”模式以應對需要更多計算的任務。Anthropic 已提高 Claude Code 的速率限制以支援更高的代幣使用。
Claude Code 中的動態工作流專為大型程式碼庫設計,能夠遷移數十萬行程式碼。這些功能目前處於研究預覽階段,僅在企業版、團隊版和 Max 版計劃中可用。
Messages API 允許在代理執行期間更新指令,透過修改訊息陣列來更新許可權、更改代幣預算或上下文,而代理則繼續工作。
Anthropic 還藉此釋出暗示正在開發能以更低成本提供當前水平能力的模型,並將釋出比當前 Opus 平臺更好的模型。其路線圖包括 Project Glasswing,該專案下的一組組織正在使用 Claude Mythos Preview 進行網路安全掃描。Anthropic 表示,該能力級別的模型在向所有客戶釋出之前需要更強的安全防護。他們預計在未來幾周內向客戶推出“Mythos 級”模型。
4.8 版本中的額外控制將向使用者揭示成本與努力之間的權衡,因為公司正在從訂閱制向基於代幣的計費模式過渡。