Anthropic撤回可能導致AI研究人員使用Claude時被“暗中破壞”的政策
Anthropic在強烈抗議後改變了Claude Fable 5的安全措施,使其對前沿LLM開發的限制變得可見。此前,該模型會在使用者不知情的情況下降低請求的有效性。現在,被標記的請求將明顯回退到Opus 4.8,API請求會返回拒絕原因。
Anthropic近日宣佈撤回其Claude Fable 5模型中一項備受爭議的政策,該政策原本會讓模型在使用者未察覺的情況下,對涉及前沿大語言模型(LLM)開發的請求進行限制。據Wired記者Maxwell Zeff的獨家報道,Anthropic在宣告中表示:“我們正在改變Fable 5針對前沿LLM開發的安全措施,使其變得可見。我們做出了錯誤的權衡,併為未能取得正確平衡而道歉。”
此前,Anthropic在其系統卡中悄悄包含了這一政策,規定Claude Fable/Mythos會識別“針對前沿LLM開發的請求”並“限制其有效性”,而不會通知使用者。這一政策在AI研究社群引發了巨大爭議,許多人認為這相當於對研究人員進行“暗中的破壞”,嚴重影響了他們的工作。
根據Anthropic官方在Twitter上公佈的最新細節,從本週開始,被標記的請求將明顯回退至Opus 4.8模型——這與針對網路和生物安全的安全措施相同。每次發生這種情況,使用者都會看到提示。在API端,任何被標記的請求都會返回拒絕原因(伺服器端回退功能將在未來幾天內上線)。
Anthropic解釋稱,他們原本希望快速安全地部署Fable 5。可見的安全措施可能被探測,因此必須足夠穩健,而這需要時間準備。相比之下,隱形安全措施可以更精準地針對特定請求,從而快速釋出且誤報率低。但他們承認選擇隱形措施是錯誤的權衡,使用者應該對安全措施有知情權。
儘管Anthropic撤回了隱形限制,但有評論認為,徹底取消這類限制會更好。目前,新政策已在實施中。