Claude Opus 4.8:'適度但切實的改進'
Anthropic發佈了Claude Opus 4.8,定位為對前代產品的適度但切實改進。主要亮點包括誠實性提升(減少無依據斷言,代碼錯誤遺漏率降低四倍),以及支持對話中修改系統提示等新功能。定價未變,但快速模式價格顯著降低。
文章情報
要點
- Anthropic推出Claude Opus 4.8,官方稱其為'適度但切實的改進'。
- 誠實性顯著提升:模型更少做出無依據斷言,代碼錯誤遺漏率降低四倍。
- 新功能包括對話中修改系統提示和更低的提示緩存門檻(1024 tokens)。
- 定價與前代一致,但快速模式價格大幅降低。
為甚麼重要
這條新聞值得關注,因為Anthropic推出Claude Opus 4.8,官方稱其為'適度但切實的改進'。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Anthropic今日發佈了其最新的語言模型Claude Opus 4.8。與許多高調宣稱“重大突破”的AI發佈不同,該公司在公告中坦承這是一個“適度但切實的改進”(a modest but tangible improvement)。這種誠實的態度貫穿了整個更新。
Opus 4.8最顯著的提升在於其誠實性。Anthropic表示,新模型在訓練中更加註重避免做出無法支持的斷言。早期測試者報告稱,Opus 4.8更傾向於標記其工作中的不確定性,減少無根據的主張。內部評估顯示,Opus 4.8在代碼審查中遺漏缺陷的可能性比前代降低了約四倍。系統卡也證實,在多項基準測試中,Opus 4.8的錯誤率(事實幻覺的直接衡量指標)是六款模型中最低的——這主要歸功於它對不確定問題選擇不回答,而不是強行給出正確答案。
在技術細節上,Opus 4.8保持了與前代相同的定價:每百萬輸入令牌5美元,每百萬輸出令牌25美元。不過,“快速模式”(Fast Mode)的價格翻倍至10/50美元,但相比前代快模式(30/150美元)已是顯著降低。快模式目前僅對研究預覽中的組織開放。
知識截止日期和訓練數據截止日期均為2026年1月,與4.7相同。上下文窗口仍為100萬令牌,最大輸出128,000令牌。
值得關注的新功能包括“對話中系統消息”(mid-conversation system messages)。Opus 4.8允許在對話的用户輪次之後插入角色為“system”的消息,從而可以在不重寫整個系統提示的情況下動態更新指令。這有助於在長時間對話中保留緩存命中,並降低智能體循環的輸入成本。此外,提示緩存最小長度從4.7的4,096令牌降至1,024令牌,使更多提示能夠受益於緩存優化。
Opus 4.8還提供了五種思考級別(low、medium、high、xhigh、max),用於控制模型在推理時的深度。作者還利用不同級別生成了自行車上的鵜鶘圖像,展示了各級別之間的差異——其中max級別效果最佳,但成本也最高(25個輸入令牌和17,167個輸出令牌,總計約43美分)。
總體而言,Claude Opus 4.8不是一個顛覆性的版本,但它在關鍵領域的改進——特別是誠實性和新功能——使其成為值得關注的更新。Anthropic也表示,他們正在開發能夠以更低成本提供類似能力的模型。