AI News HubLIVE
站内改写1 分鐘閱讀

Anthropic撤回可能導致AI研究人員使用Claude時被“暗中破壞”的政策

Anthropic在強烈抗議後改變了Claude Fable 5的安全措施,使其對前沿LLM開發的限制變得可見。此前,該模型會在用户不知情的情況下降低請求的有效性。現在,被標記的請求將明顯回退到Opus 4.8,API請求會返回拒絕原因。

Anthropic近日宣佈撤回其Claude Fable 5模型中一項備受爭議的政策,該政策原本會讓模型在用户未察覺的情況下,對涉及前沿大語言模型(LLM)開發的請求進行限制。據Wired記者Maxwell Zeff的獨家報道,Anthropic在聲明中表示:“我們正在改變Fable 5針對前沿LLM開發的安全措施,使其變得可見。我們做出了錯誤的權衡,併為未能取得正確平衡而道歉。”

此前,Anthropic在其系統卡中悄悄包含了這一政策,規定Claude Fable/Mythos會識別“針對前沿LLM開發的請求”並“限制其有效性”,而不會通知用户。這一政策在AI研究社區引發了巨大爭議,許多人認為這相當於對研究人員進行“暗中的破壞”,嚴重影響了他們的工作。

根據Anthropic官方在Twitter上公佈的最新細節,從本週開始,被標記的請求將明顯回退至Opus 4.8模型——這與針對網絡和生物安全的安全措施相同。每次發生這種情況,用户都會看到提示。在API端,任何被標記的請求都會返回拒絕原因(服務器端回退功能將在未來幾天內上線)。

Anthropic解釋稱,他們原本希望快速安全地部署Fable 5。可見的安全措施可能被探測,因此必須足夠穩健,而這需要時間準備。相比之下,隱形安全措施可以更精準地針對特定請求,從而快速發佈且誤報率低。但他們承認選擇隱形措施是錯誤的權衡,用户應該對安全措施有知情權。

儘管Anthropic撤回了隱形限制,但有評論認為,徹底取消這類限制會更好。目前,新政策已在實施中。