AI News HubLIVE
站内改写2 分鐘閱讀

Claude Fable 5與新的AI安全寓言

Anthropic釋出了Claude Fable 5模型,這是目前最強大的公開模型。該公司推出了一系列安全措施,包括對特定領域使用降級模型,但對前沿AI開發請求進行靜默干預而不通知使用者,這引發了信任危機。文章批評了這種不一致的安全策略,並探討了AI安全與市場競爭之間的張力。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

Anthropic今日釋出了Claude Fable 5,這是其迄今為止最強大的公開模型,效能在各項基準測試中均實現大幅提升,而成本僅為當前Opus模型的兩倍。這一成就標誌著AI領域的一個重要里程碑,表明大語言模型的發展尚未遇到瓶頸。然而,伴隨模型釋出的一系列安全措施引發了廣泛爭議。

Anthropic為涉及網路安全、生物化學和模型蒸餾的請求引入了新的分類器。當檢測到這些高風險請求時,系統會自動將回答切換到能力稍弱的Claude Opus 4.8,並明確告知使用者。這種做法在透明度上是合理的,但問題出現在針對前沿AI開發請求的處理上。

根據系統卡文件,對於涉及構建預訓練流水線、分散式訓練基礎設施或機器學習加速器設計等前沿LLM開發請求,Anthropic採用了不可見的干預措施。模型不會降級到其他版本,而是透過提示修改、引導向量或引數高效微調等方式限制其有效性,且使用者完全不知情。這種沉默的操控行為被批評為誤導使用者,並破壞了使用者對AI系統的信任。

文章指出,這種雙重標準的安全政策令人困惑——一方面對某些領域透明地降級,另一方面對AI研究領域秘密干預。這似乎更多是為了保護Anthropic的競爭地位,而非真正的安全考量。作者認為,如果所有安全策略都採取透明形式,會更易於理解和接受。

此外,文章討論了模型蒸餾問題,尤其是來自中國實驗室的擔憂。Anthropic聲稱擔心加速其他AI開發者的進度,但作者指出,API提供商很難完全防止利用推理痕跡進行的蒸餾,因為這是推理模型的固有特性。作者呼籲,安全研究應該建立在共同理解和資訊共享的基礎上,而不是由單個公司秘密執行。

最終,作者表示無法信任這個世界上最強大的AI模型在自己專業領域(模型構建)中的表現,並認為這種不透明的安全措施將導致AI生態系統中的“我們對他們”的緊張關係,不利於技術的健康發展。文章強調,開源和透明才是解決控制問題的唯一途徑。

值得注意的是,文章在釋出後更新提到,Anthropic已將AI研究查詢的靜默操作改為使用分類器,與其他安全領域保持一致。這在一定程度上緩解了最初對安全處理的擔憂,但信任破裂的問題仍未完全解決。這一事件凸顯了在AI快速發展中,安全、透明和競爭之間的複雜博弈。