AI News HubLIVE
站内改写2 分鐘閱讀

Anthropic的Fable是迄今為止最受限制的公開模型

Anthropic發佈Claude Fable 5,因計劃暗中降低對涉及前沿大模型開發問題的回答質量而引發爭議。批評者認為此舉阻礙研究且損害信任。Anthropic隨後調整策略,改為透明地降級用户至較弱的Claude Opus 4.8。即便如此,Fable 5的安全過濾仍比其他前沿模型嚴格,甚至對“什麼是蛋白質?”這類問題也會觸發降級。文章詳細解釋了Anthropic的安全過濾機制及其演變。

來源Understanding AI作者: Kai Williams

本週二,Anthropic發佈了其最新模型Claude Fable 5。然而,在系統卡第13頁的一則聲明迅速引發了廣泛抗議。AI研究員Nathan Lambert稱其“令人震驚”,前特朗普政府AI政策官員Dean Ball則寫道“充滿敵意”,許多其他人也加入了批評行列。

引發眾怒的聲明是:Anthropic計劃對看似“針對前沿大模型開發”的提示進行回答質量的微妙降級。解讀其弦外之音,Anthropic似乎擔心競爭對手,尤其是中國公司,會利用Claude構建競爭模型。Anthropic聲稱這種降級“對用户不可見”。

批評者擔憂,這些限制及其保密性將阻止學術研究人員對模型進行基準測試或從事公共利益相關的AI研究。還有人指出,這種暗中行為使得任何Anthropic的發佈都難以信任:Lambert寫道,一個“自動降低智能而不通知我的模型屬於根本性失調”。

面對強烈反彈,Anthropic迅速讓步。週三晚間,它宣佈了新方案:不再暗中降級,而是透明地將請求幫助訓練前沿大模型的用户切換至能力較弱的Claude Opus 4.8。

即便經過這一改變,Claude Fable 5的安全過濾幾乎肯定比任何其他前沿模型都更嚴格。例如,週三當我問“什麼是蛋白質?”時,竟觸發了降級(今天同樣的提問則得到正常回答)。這是因為Fable 5基於Claude Mythos——一個因極其強大的黑客能力而在四月被Anthropic決定不向公眾發佈的模型。在沒有防護的情況下,Fable 5擁有與Mythos相同的黑客能力,因此Anthropic對模型行為極為保守。

Anthropic表示正在改進安全過濾,以減少此類誤報,但不會放棄其整體激進策略。本文接着詳細解釋了Anthropic的安全過濾工作原理及其隨時間演進的歷程。Anthropic參考了兩篇關鍵論文來構建其安全系統:一篇關於“憲法AI”方法,另一篇關於“紅隊測試”策略。這些論文展示了Anthropic如何通過迭代訓練和分層過濾,在保持模型能力的同時,大幅降低有害輸出的風險。最新的過濾系統於今年年初部署,不僅提高了對惡意提示的檢測準確率,還顯著降低了計算成本。

總的來説,Fable 5的發佈凸顯了前沿AI公司在開放性與安全性之間的艱難平衡。雖然Anthropic的保守策略受到批評,但其透明化的調整也體現了對公眾關切的回應。未來,隨着安全技術的進步,我們可能會看到更多類似的權衡。