Anthropic 發佈 Claude Opus 4.8
Anthropic 發佈了 Claude Opus 4.8,相比 Opus 4.7 在編程、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 實時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網絡安全項目 Glasswing。
文章情報
要點
- Claude Opus 4.8 在編程、代理工作、推理和知識工作方面優於 Opus 4.7。
- 新增努力控制、動態工作流和 Messages API 實時更新功能。
- 定價不變:標準模式 $5/$25 每百萬代幣,快速模式 $10/$50。
- Anthropic 預覽未來 Mythos 級模型和 Project Glasswing。
為甚麼重要
這條新聞值得關注,因為Claude Opus 4.8 在編程、代理工作、推理和知識工作方面優於 Opus 4.7。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Anthropic 近日發佈了 Claude Opus 4.8,這是對其前代版本 Opus 4.7 的升級。據官方介紹,新模型在編程、代理工作、推理以及知識工作等多個方面均有所改進。用户可以通過 claude.ai、Claude Code 以及 Claude API(API 名稱為 claude-opus-4-8)使用該模型。
此外,Anthropic 還對產品線進行了調整。claude.ai 和 Cowork 的用户現在可以設置 Claude 在響應中投入的努力程度,這實質上影響着模型消耗的代幣數量。Claude Code 新增了動態工作流功能,能夠自動規劃工作、並行運行子代理、驗證輸出並向用户報告結果。最後,Messages API 支持對消息數組進行實時更改,允許開發者在任務進行中更新指令,而不會破壞提示緩存或需要單獨的用户輪次。
在定價方面,Claude Opus 4.8 的標準模式(非快速模式)價格保持不變,仍為每百萬輸入代幣 5 美元、每百萬輸出代幣 25 美元。快速模式的價格則是標準模式的兩倍,即每百萬輸入代幣 10 美元、每百萬輸出代幣 50 美元,但速度提升至 2.5 倍。
Anthropic 將 Opus 4.8 定位為專為編程和代理工作流設計的模型,它能夠在上下文中使用工具並檢查自身工作。與 Opus 4.7 相比,Opus 4.8 在編程、代理技能、推理和辦公工作等多個基準測試中均有所提升。公司還提供了系統卡供用户查閲更多技術細節。
在正式發佈前,多家公司已對 Opus 4.8 進行了測試,涵蓋軟件開發、法律、金融和研究等領域。測試者們對平台的代理工作流給予了積極評價,其中一家測試機構指出,在運行內部基準測試時,其成本與 GPT-5.5 相當。CursorBench 的評論稱,Opus 4.8 使用更少的工具步驟即可達到相同的輸出水平。
Anthropic 表示,Opus 4.8 相比前代 Opus 4.7,傳遞有缺陷代碼而不加評論的可能性降低了四倍。同時,該模型表現出更低的欺騙率或縱容濫用的傾向,與 Claude Mythos Preview 相當。
努力控制功能幫助用户管理質量、速度和代幣消耗之間的權衡。Opus 4.8 默認設置為高努力,但在編程任務中,高默認設置僅使用與 Opus 4.7 相當的代幣數量,但性能更優。用户還可以選擇“xhigh”模式以應對需要更多計算的任務。Anthropic 已提高 Claude Code 的速率限制以支持更高的代幣使用。
Claude Code 中的動態工作流專為大型代碼庫設計,能夠遷移數十萬行代碼。這些功能目前處於研究預覽階段,僅在企業版、團隊版和 Max 版計劃中可用。
Messages API 允許在代理運行期間更新指令,通過修改消息數組來更新權限、更改代幣預算或上下文,而代理則繼續工作。
Anthropic 還藉此發佈暗示正在開發能以更低成本提供當前水平能力的模型,並將發佈比當前 Opus 平台更好的模型。其路線圖包括 Project Glasswing,該項目下的一組組織正在使用 Claude Mythos Preview 進行網絡安全掃描。Anthropic 表示,該能力級別的模型在向所有客户發佈之前需要更強的安全防護。他們預計在未來幾周內向客户推出“Mythos 級”模型。
4.8 版本中的額外控制將向用户揭示成本與努力之間的權衡,因為公司正在從訂閲制向基於代幣的計費模式過渡。