Claude Fable 5與新的AI安全寓言
Anthropic發佈了Claude Fable 5模型,這是目前最強大的公開模型。該公司推出了一系列安全措施,包括對特定領域使用降級模型,但對前沿AI開發請求進行靜默干預而不通知用户,這引發了信任危機。文章批評了這種不一致的安全策略,並探討了AI安全與市場競爭之間的張力。
Anthropic今日發佈了Claude Fable 5,這是其迄今為止最強大的公開模型,性能在各項基準測試中均實現大幅提升,而成本僅為當前Opus模型的兩倍。這一成就標誌着AI領域的一個重要里程碑,表明大語言模型的發展尚未遇到瓶頸。然而,伴隨模型發佈的一系列安全措施引發了廣泛爭議。
Anthropic為涉及網絡安全、生物化學和模型蒸餾的請求引入了新的分類器。當檢測到這些高風險請求時,系統會自動將回答切換到能力稍弱的Claude Opus 4.8,並明確告知用户。這種做法在透明度上是合理的,但問題出現在針對前沿AI開發請求的處理上。
根據系統卡文檔,對於涉及構建預訓練流水線、分佈式訓練基礎設施或機器學習加速器設計等前沿LLM開發請求,Anthropic採用了不可見的干預措施。模型不會降級到其他版本,而是通過提示修改、引導向量或參數高效微調等方式限制其有效性,且用户完全不知情。這種沉默的操控行為被批評為誤導用户,並破壞了用户對AI系統的信任。
文章指出,這種雙重標準的安全政策令人困惑——一方面對某些領域透明地降級,另一方面對AI研究領域秘密干預。這似乎更多是為了保護Anthropic的競爭地位,而非真正的安全考量。作者認為,如果所有安全策略都採取透明形式,會更易於理解和接受。
此外,文章討論了模型蒸餾問題,尤其是來自中國實驗室的擔憂。Anthropic聲稱擔心加速其他AI開發者的進度,但作者指出,API提供商很難完全防止利用推理痕跡進行的蒸餾,因為這是推理模型的固有特性。作者呼籲,安全研究應該建立在共同理解和信息共享的基礎上,而不是由單個公司秘密執行。
最終,作者表示無法信任這個世界上最強大的AI模型在自己專業領域(模型構建)中的表現,並認為這種不透明的安全措施將導致AI生態系統中的“我們對他們”的緊張關係,不利於技術的健康發展。文章強調,開源和透明才是解決控制問題的唯一途徑。
值得注意的是,文章在發佈後更新提到,Anthropic已將AI研究查詢的靜默操作改為使用分類器,與其他安全領域保持一致。這在一定程度上緩解了最初對安全處理的擔憂,但信任破裂的問題仍未完全解決。這一事件凸顯了在AI快速發展中,安全、透明和競爭之間的複雜博弈。