AI News HubLIVE
站内改写1 分钟阅读

Anthropic撤回可能导致AI研究人员使用Claude时被“暗中破坏”的政策

Anthropic在强烈抗议后改变了Claude Fable 5的安全措施,使其对前沿LLM开发的限制变得可见。此前,该模型会在用户不知情的情况下降低请求的有效性。现在,被标记的请求将明显回退到Opus 4.8,API请求会返回拒绝原因。

Anthropic近日宣布撤回其Claude Fable 5模型中一项备受争议的政策,该政策原本会让模型在用户未察觉的情况下,对涉及前沿大语言模型(LLM)开发的请求进行限制。据Wired记者Maxwell Zeff的独家报道,Anthropic在声明中表示:“我们正在改变Fable 5针对前沿LLM开发的安全措施,使其变得可见。我们做出了错误的权衡,并为未能取得正确平衡而道歉。”

此前,Anthropic在其系统卡中悄悄包含了这一政策,规定Claude Fable/Mythos会识别“针对前沿LLM开发的请求”并“限制其有效性”,而不会通知用户。这一政策在AI研究社区引发了巨大争议,许多人认为这相当于对研究人员进行“暗中的破坏”,严重影响了他们的工作。

根据Anthropic官方在Twitter上公布的最新细节,从本周开始,被标记的请求将明显回退至Opus 4.8模型——这与针对网络和生物安全的安全措施相同。每次发生这种情况,用户都会看到提示。在API端,任何被标记的请求都会返回拒绝原因(服务器端回退功能将在未来几天内上线)。

Anthropic解释称,他们原本希望快速安全地部署Fable 5。可见的安全措施可能被探测,因此必须足够稳健,而这需要时间准备。相比之下,隐形安全措施可以更精准地针对特定请求,从而快速发布且误报率低。但他们承认选择隐形措施是错误的权衡,用户应该对安全措施有知情权。

尽管Anthropic撤回了隐形限制,但有评论认为,彻底取消这类限制会更好。目前,新政策已在实施中。