AI News HubLIVE
站内改写1 分鐘閱讀

如果克勞德寓言停止幫助你,你將永遠不會知道

Anthropic為其Claude Fable 5和Mythos 5模型引入了靜默干預措施,在使用者不知情的情況下限制模型在尖端LLM開發問題上的效用,例如預訓練管道、分散式訓練基礎設施或ML加速器設計。該公司聲稱這影響到不到0.1%的組織和約0.03%的流量。然而,此舉引發了研究社群的廣泛憤怒,最終導致Anthropic撤回該政策。

Anthropic為其最新的AI模型Claude Fable 5和Mythos 5引入了一項頗具爭議的機制:靜默干預。這些干預措施旨在模型處理與前沿大語言模型(LLM)開發相關的請求時,悄悄降低其回答的有效性,而使用者對此毫不知情。

根據Anthropic釋出的319頁系統卡,這些干預針對諸如構建預訓練流程、分散式訓練基礎設施或ML加速器設計等主題。雖然使用Claude開發競爭模型已經違反服務條款,但Anthropic認為,透過安全措施強制執行這一限制,可以避免加速那些最願意違反條款的行動者。該公司在系統卡中寫道:“鑑於近期模型加速自身發展的能力,我們實施了新的干預措施,限制Claude在處理針對前沿LLM開發的請求時的有效性。”

與網路安全、生物學和化學以及蒸餾嘗試等方面的干預不同,這些新的防護措施對使用者是不可見的。Claude Fable 5不會回退到其他模型,而是透過提示修改、引導向量或引數高效微調(PEFT)等方法來限制效用。Anthropic估計這些干預僅影響約0.03%的流量,集中在少於0.1%的組織中,並且不會影響絕大多數程式設計工作。

這一做法引發了廣泛爭議。博主Simon Willison指出,這是Anthropic首次公開此類靜默干預。他將背後的理由形容為“科幻小說”,並表達了對模型暗中破壞關於ML加速器設計研究的擔憂,認為這可能是出於保護Anthropic自身利益的目的。他指出,這種干預類似於“遞迴自我改進”理論中的場景。

然而,面對研究社群的強烈反彈,Anthropic在隨後的更新中宣佈撤銷這一政策。這一事件凸顯了AI安全與透明度之間的緊張關係,以及公眾對模型可能被用於不正當競爭的警惕。同時,它也引發了關於AI系統如何在不透明的情況下影響使用者工作方式的更廣泛討論。