2026-06-11站内改写1 分鐘閱讀更新: 2026-06-12

Anthropic撤回可能導致AI研究人員使用Claude時被“暗中破壞”的政策

Anthropic在強烈抗議後改變了Claude Fable 5的安全措施，使其對前沿LLM開發的限制變得可見。此前，該模型會在使用者不知情的情況下降低請求的有效性。現在，被標記的請求將明顯回退到Opus 4.8，API請求會返回拒絕原因。

來源Simon Willison's Weblog

Anthropic近日宣佈撤回其Claude Fable 5模型中一項備受爭議的政策，該政策原本會讓模型在使用者未察覺的情況下，對涉及前沿大語言模型（LLM）開發的請求進行限制。據Wired記者Maxwell Zeff的獨家報道，Anthropic在宣告中表示：“我們正在改變Fable 5針對前沿LLM開發的安全措施，使其變得可見。我們做出了錯誤的權衡，併為未能取得正確平衡而道歉。”

此前，Anthropic在其系統卡中悄悄包含了這一政策，規定Claude Fable/Mythos會識別“針對前沿LLM開發的請求”並“限制其有效性”，而不會通知使用者。這一政策在AI研究社群引發了巨大爭議，許多人認為這相當於對研究人員進行“暗中的破壞”，嚴重影響了他們的工作。

根據Anthropic官方在Twitter上公佈的最新細節，從本週開始，被標記的請求將明顯回退至Opus 4.8模型——這與針對網路和生物安全的安全措施相同。每次發生這種情況，使用者都會看到提示。在API端，任何被標記的請求都會返回拒絕原因（伺服器端回退功能將在未來幾天內上線）。

Anthropic解釋稱，他們原本希望快速安全地部署Fable 5。可見的安全措施可能被探測，因此必須足夠穩健，而這需要時間準備。相比之下，隱形安全措施可以更精準地針對特定請求，從而快速釋出且誤報率低。但他們承認選擇隱形措施是錯誤的權衡，使用者應該對安全措施有知情權。

儘管Anthropic撤回了隱形限制，但有評論認為，徹底取消這類限制會更好。目前，新政策已在實施中。