2026-06-10站内改写1 分鐘閱讀更新: 2026-06-12

如果克勞德寓言停止幫助你，你將永遠不會知道

Anthropic為其Claude Fable 5和Mythos 5模型引入了靜默干預措施，在使用者不知情的情況下限制模型在尖端LLM開發問題上的效用，例如預訓練管道、分散式訓練基礎設施或ML加速器設計。該公司聲稱這影響到不到0.1%的組織和約0.03%的流量。然而，此舉引發了研究社群的廣泛憤怒，最終導致Anthropic撤回該政策。

來源Simon Willison's Weblog

Anthropic為其最新的AI模型Claude Fable 5和Mythos 5引入了一項頗具爭議的機制：靜默干預。這些干預措施旨在模型處理與前沿大語言模型（LLM）開發相關的請求時，悄悄降低其回答的有效性，而使用者對此毫不知情。

根據Anthropic釋出的319頁系統卡，這些干預針對諸如構建預訓練流程、分散式訓練基礎設施或ML加速器設計等主題。雖然使用Claude開發競爭模型已經違反服務條款，但Anthropic認為，透過安全措施強制執行這一限制，可以避免加速那些最願意違反條款的行動者。該公司在系統卡中寫道：“鑑於近期模型加速自身發展的能力，我們實施了新的干預措施，限制Claude在處理針對前沿LLM開發的請求時的有效性。”

與網路安全、生物學和化學以及蒸餾嘗試等方面的干預不同，這些新的防護措施對使用者是不可見的。Claude Fable 5不會回退到其他模型，而是透過提示修改、引導向量或引數高效微調（PEFT）等方法來限制效用。Anthropic估計這些干預僅影響約0.03%的流量，集中在少於0.1%的組織中，並且不會影響絕大多數程式設計工作。

這一做法引發了廣泛爭議。博主Simon Willison指出，這是Anthropic首次公開此類靜默干預。他將背後的理由形容為“科幻小說”，並表達了對模型暗中破壞關於ML加速器設計研究的擔憂，認為這可能是出於保護Anthropic自身利益的目的。他指出，這種干預類似於“遞迴自我改進”理論中的場景。

然而，面對研究社群的強烈反彈，Anthropic在隨後的更新中宣佈撤銷這一政策。這一事件凸顯了AI安全與透明度之間的緊張關係，以及公眾對模型可能被用於不正當競爭的警惕。同時，它也引發了關於AI系統如何在不透明的情況下影響使用者工作方式的更廣泛討論。