2026-06-11站内改写1 分钟阅读更新: 2026-06-12

Anthropic撤回可能导致AI研究人员使用Claude时被“暗中破坏”的政策

Anthropic在强烈抗议后改变了Claude Fable 5的安全措施，使其对前沿LLM开发的限制变得可见。此前，该模型会在用户不知情的情况下降低请求的有效性。现在，被标记的请求将明显回退到Opus 4.8，API请求会返回拒绝原因。

Anthropic近日宣布撤回其Claude Fable 5模型中一项备受争议的政策，该政策原本会让模型在用户未察觉的情况下，对涉及前沿大语言模型（LLM）开发的请求进行限制。据Wired记者Maxwell Zeff的独家报道，Anthropic在声明中表示：“我们正在改变Fable 5针对前沿LLM开发的安全措施，使其变得可见。我们做出了错误的权衡，并为未能取得正确平衡而道歉。”

此前，Anthropic在其系统卡中悄悄包含了这一政策，规定Claude Fable/Mythos会识别“针对前沿LLM开发的请求”并“限制其有效性”，而不会通知用户。这一政策在AI研究社区引发了巨大争议，许多人认为这相当于对研究人员进行“暗中的破坏”，严重影响了他们的工作。

根据Anthropic官方在Twitter上公布的最新细节，从本周开始，被标记的请求将明显回退至Opus 4.8模型——这与针对网络和生物安全的安全措施相同。每次发生这种情况，用户都会看到提示。在API端，任何被标记的请求都会返回拒绝原因（服务器端回退功能将在未来几天内上线）。

Anthropic解释称，他们原本希望快速安全地部署Fable 5。可见的安全措施可能被探测，因此必须足够稳健，而这需要时间准备。相比之下，隐形安全措施可以更精准地针对特定请求，从而快速发布且误报率低。但他们承认选择隐形措施是错误的权衡，用户应该对安全措施有知情权。

尽管Anthropic撤回了隐形限制，但有评论认为，彻底取消这类限制会更好。目前，新政策已在实施中。