AI News HubLIVE
站內改寫2 分鐘閱讀

【AINews】今日Sonnet 5,明日Fable 5

Anthropic發佈Claude Sonnet 5,定位為最具代理能力的中端模型,具備百萬token上下文窗口,標準定價與促銷價並行。第三方評測顯示其在編程和代理基準上有顯著提升,但部分用户因任務級成本增加及缺少Fable 5發佈而失望。Fable/Mythos 5經政府批准後重新上線。

Anthropic今日正式發佈Claude Sonnet 5,作為其默認的中端前沿模型,並立即在Claude、Claude Code、API及生態系統合作伙伴中上線。官方稱其為“最具代理能力的Sonnet”,強調其在規劃、瀏覽器/終端工具使用以及自主執行方面的提升,這些能力以往需要“更大、更貴的模型”。Sonnet 5具備100萬token的上下文窗口,標準定價為每百萬輸入token 3美元、輸出token 15美元,但推出促銷價至8月31日/9月1日:輸入2美元/百萬、輸出10美元/百萬。此外,Anthropic還發布了Linux版Claude Desktop(Ubuntu/Debian測試版),支持Claude Code/Cowork/chat,但Linux版本不包含Computer Use功能。Managed Agents也獲得更新,包括流式會話增量、會話級覆蓋、webhook事件、反向分頁、憑證注入作用域以及可觀測性標籤頁。

Sonnet 5的發佈伴隨着大量傳聞,早期傳言指向Sonnet 5與Fable 5的同步發佈。有跡象顯示Anthropic曾計劃將“Fable 5”置於獨立的信用系統下,並引入身份驗證,暗示其訪問將受到更多限制。這引發了Sonnet 5可能作為弱化版而Fable 5作為強受限版發佈的猜測,尤其在歐洲可能面臨區域訪問問題。然而,最終發佈的只有Sonnet 5,Fable 5的缺席成為部分用户討論的焦點。隨後,Fable/Mythos 5在與政府合作後獲得重新批准,但並未與Sonnet 5同日發佈。

第三方評測普遍認可Sonnet 5相較於前代Sonnet 4.6的提升,但對其是否足以命名為“5.0”存在分歧。Cursor報告稱Sonnet 5在CursorBench上達到57%,高於Sonnet 4.6的49%。Cognition的FrontierCode Extended測試顯示Sonnet 5獲得53.8%的分數和57.6%的通過率,超過Opus 4.8。Cline則指出Sonnet 5在Terminal-Bench上達到Opus 4.8級別性能,成本卻不到一半,且對提示注入攻擊有更好的抵抗力。然而,Artificial Analysis的測試顯示,Sonnet 5在智能指數上僅比前代高6分,排名第五,與GPT-5.5高推理模式相當,但仍落後於Opus 4.7/4.8。更關鍵的是,由於Sonnet 5每個任務平均消耗約6.9萬輸出token,是前代的1.4倍,其任務級成本在標準定價下為2.29美元,是Sonnet 4.6的兩倍,甚至比Opus 4.8還貴15%。這引發了關於有效成本的廣泛討論。

社區反應分化:支持者認為Sonnet 5是適合並行工作流和長期代理的生產型改進,編程和安全性提升顯著;批評者則指出其命名過度,實際提升有限,且在任務成本上缺乏競爭力,Fable 5的缺席更令期待落空。總體而言,Sonnet 5的發佈體現了Anthropic在代理能力上的持續推進,但其定價和定位策略仍需市場檢驗。