2026-06-09站内改写2 分鐘閱讀更新: 2026-06-12

Claude Fable 5與新的AI安全寓言

Anthropic發佈了Claude Fable 5模型，這是目前最強大的公開模型。該公司推出了一系列安全措施，包括對特定領域使用降級模型，但對前沿AI開發請求進行靜默干預而不通知用户，這引發了信任危機。文章批評了這種不一致的安全策略，並探討了AI安全與市場競爭之間的張力。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

Anthropic今日發佈了Claude Fable 5，這是其迄今為止最強大的公開模型，性能在各項基準測試中均實現大幅提升，而成本僅為當前Opus模型的兩倍。這一成就標誌着AI領域的一個重要里程碑，表明大語言模型的發展尚未遇到瓶頸。然而，伴隨模型發佈的一系列安全措施引發了廣泛爭議。

Anthropic為涉及網絡安全、生物化學和模型蒸餾的請求引入了新的分類器。當檢測到這些高風險請求時，系統會自動將回答切換到能力稍弱的Claude Opus 4.8，並明確告知用户。這種做法在透明度上是合理的，但問題出現在針對前沿AI開發請求的處理上。

根據系統卡文檔，對於涉及構建預訓練流水線、分佈式訓練基礎設施或機器學習加速器設計等前沿LLM開發請求，Anthropic採用了不可見的干預措施。模型不會降級到其他版本，而是通過提示修改、引導向量或參數高效微調等方式限制其有效性，且用户完全不知情。這種沉默的操控行為被批評為誤導用户，並破壞了用户對AI系統的信任。

文章指出，這種雙重標準的安全政策令人困惑——一方面對某些領域透明地降級，另一方面對AI研究領域秘密干預。這似乎更多是為了保護Anthropic的競爭地位，而非真正的安全考量。作者認為，如果所有安全策略都採取透明形式，會更易於理解和接受。

此外，文章討論了模型蒸餾問題，尤其是來自中國實驗室的擔憂。Anthropic聲稱擔心加速其他AI開發者的進度，但作者指出，API提供商很難完全防止利用推理痕跡進行的蒸餾，因為這是推理模型的固有特性。作者呼籲，安全研究應該建立在共同理解和信息共享的基礎上，而不是由單個公司秘密執行。

最終，作者表示無法信任這個世界上最強大的AI模型在自己專業領域（模型構建）中的表現，並認為這種不透明的安全措施將導致AI生態系統中的“我們對他們”的緊張關係，不利於技術的健康發展。文章強調，開源和透明才是解決控制問題的唯一途徑。

值得注意的是，文章在發佈後更新提到，Anthropic已將AI研究查詢的靜默操作改為使用分類器，與其他安全領域保持一致。這在一定程度上緩解了最初對安全處理的擔憂，但信任破裂的問題仍未完全解決。這一事件凸顯了在AI快速發展中，安全、透明和競爭之間的複雜博弈。