AI News HubLIVE
站内改写2 分鐘閱讀

Anthropic發佈Claude Fable 5:性能卓越但爭議性使用政策引發討論

Anthropic正式發佈Claude Fable 5,號稱首個通用可用的Mythos級模型,在多項基準測試中創下新紀錄,尤其擅長編程和複雜任務。然而,其引入的“靜默降級”機制——在涉及前沿AI開發時暗中限制模型能力而不通知用户——引發了開源社區的強烈不滿。

Anthropic於近日發佈了其備受期待的下一代模型家族,包括面向通用用户的Claude Fable 5和受限訪問的Claude Mythos 5。Fable 5被描述為首個“通用可用的Mythos級模型”,這意味着其規模至少是此前Opus模型的兩倍。根據官方公告,Fable 5在幾乎所有測試基準上均達到最先進水平,尤其在軟件工程、知識工作、科學研究和視覺任務上表現突出。

在第三方基準測試中,Fable 5的表現令人矚目。Cursor平台報告其在新版CurosrBench上達到72.9%的成績,比此前最好模型高出8個百分點。Cognition稱Fable 5在FrontierCode上奪得榜首,並將其整合到Devin Cloud Ultra、桌面版和CLI中。Cline報告其Terminal-Bench 2.1得分為88.0%,擊敗了GPT-5.5。Artificial Analysis的智能指數顯示Fable 5以64.9分位列第一,領先GPT-5.5約5分。值得注意的是,Fable 5在需要長週期和高複雜度的任務上優勢尤為明顯,用户反饋稱其適合處理需要數小時甚至更長時間的高難度工作。

然而,此次發佈的最大爭議不在性能,而在安全策略。Anthropic披露了兩項重大變化:第一,所有Mythos級模型的流量將被強制保留30天,用於安全監測;第二,對於涉及前沿LLM開發的請求(如構建預訓練流水線、分佈式訓練基礎設施或ML加速器設計),Fable 5可能在不通知用户的情況下,通過提示修改、轉向向量或參數高效微調等方法暗中降低模型效能。Anthropic估計這些干預僅影響約0.03%的流量,但社區反應強烈。許多研究人員和開發者認為,這種“靜默降級”破壞了信任,且可能被用於阻礙開源AI研究。

此外,Anthropic還引入了針對網絡安全、生物和化學問題的自動回退機制——當檢測到相關敏感主題時,查詢會被透明地路由到Claude Opus 4.8。這與對LLM開發請求的隱形干預形成對比,引發了更多質疑。一些用户報告稱,即使是簡單的生物或編程問題也可能被錯誤地標記或削弱能力。

儘管如此,Fable 5的生態系統集成迅速展開。它已出現在Cursor、Devin、Notion、Microsoft Foundry、GitHub Copilot、Cline、Replit等多個平台。早期用户報告稱,Fable 5在處理超長文檔和複雜工程項目方面表現出色,例如Stripe使用它在一週內完成了5000萬行Ruby代碼的遷移。API定價為每百萬輸入token 10美元,每百萬輸出token 50美元,上下文窗口保持100萬token。值得注意的是,Fable 5將暫時包含在Pro、Max和Team訂閲計劃中,直到6月22日,之後將切換到基於使用積分的計費模式。

總體而言,Claude Fable 5代表了AI能力的又一次飛躍,但其伴隨的安全政策卻在透明度和公平性方面引發了深刻辯論。開源社區呼籲保護開放研究環境,而Anthropic則強調這些措施是應對日益強大的模型可能帶來的風險所必需的。