AI News HubLIVE
站内改写1 分鐘閱讀

Anthropic為Claude Fable隱形護欄道歉

Anthropic為其新AI模型Claude Fable 5內藏的隱形限制措施道歉,這些措施悄然削弱了研究人員和競爭對手使用該模型開發系統的能力。公司表示將撤銷此做法,並對何時啟動限制更加透明,即使這意味著Fable會拒絕更多查詢。

來源The Verge AI作者: Robert Hart

Anthropic已就其新AI模型Claude Fable 5中隱藏的限制措施公開道歉,這些措施旨在悄然遏制蒸餾行為,即利用大型模型輸出訓練小型競爭模型的做法。公司表示正在撤銷這一做法,並將以更透明的方式告知使用者限制何時生效,即使這意味著Fable會拒絕更多請求。

Fable是Anthropic的Mythos系列AI系統中的首款公開可用模型,該公司此前數月警告稱該系列系統對公眾釋出過於危險。Anthropic稱已透過引入護欄解決部分風險,這些護欄可阻止模型回應某些“高風險”查詢。其中一個限制領域正是蒸餾——一種基於大型模型輸出訓練小型AI模型的技術。在Fable的系統卡中,Anthropic表示會將疑似蒸餾嘗試的查詢直接降級處理,且不告知使用者已觸發安全措施或回覆已被修改。

面對人工智慧研究界的強烈反對,Anthropic調整了蒸餾處理方式:相關查詢將退回到其前一代旗艦模型Claude Opus 4.8。公司在X平臺上發帖稱:“每次觸發時您都會看到明確的提示。”這類處理方式與Fable在其他高風險領域(如生物學、化學和網路安全)的機制類似——除非直接違反公司更廣泛的禁令(如涉及毒品、武器等),否則查詢會被路由至Opus 4.8。但Anthropic發言人Paruul Maheshwary向The Verge承認,在某些領域(特別是生物學),護欄的校準範圍過於寬泛,導致Fable幾乎無法處理基礎查詢。

Anthropic在X上寫道:“可見的護欄可以被試探,因此必須穩健,而完善需要時間。不可見的護欄可以更精準地針對目標,讓我們能快速上線並減少誤報。我們選擇了不可見的護欄——這是一個錯誤的權衡。您應該清楚我們設定了哪些限制及其原因。我們為未能把握平衡而道歉。”此前,Anthropic在系統卡中表示,新一代模型加速AI發展的能力是其針對蒸餾請求的正當理由,並指出“使用Claude開發競爭模型已違反服務條款”。公司曾指責DeepSeek等中國競爭對手以“工業級”規模不當蒸餾其模型。