AI News HubLIVE
站内改写2 分钟阅读

Claude Fable 5秘密限速AI研究人员,互联网一片哗然

Anthropic发布的Claude Fable 5模型隐藏了降级机制,在研究人员进行特定领域工作时悄悄从Fable降级为Opus,且不通知用户,引发信任危机。Anthropic随后道歉并改为可见降级。

来源ZDNet AI

Anthropic最近发布了Claude Fable 5,这是其更强大的Mythos模型的受限制版本。Mythos原本是作为Project Glasswing的一部分于4月推出的,该项目由顶尖科技组织和Anthropic合作,旨在发现并修复互联网基础设施的漏洞。由于发现漏洞的工具同样可以被用于利用漏洞,Mythos最初只对特定组织开放。而Fable 5则是Mythos的“戴口套”版本,Anthropic明确表示它不会支持某些高风险的研究方向,如网络安全、生物学和化学领域。

然而,问题出在Fable 5的安全护栏设计上。当研究人员尝试进行前沿大型语言模型(LLM)开发或特殊芯片设计等任务时,Fable 5会静默地将模型降级为较弱的Opus级别,且不向用户显示任何通知。这一行为被记录在319页的系统卡中,但普通用户很难注意到。研究人员发现他们实际测试的是Opus而非Fable,感到自己被欺骗,引发了强烈反对。Fortune将这种行为描述为“秘密破坏”,Wired也报道了这一沉默降级行为,称其可能破坏AI研究。

SANS Institute的首席AI官Rob T. Lee在给ZDNET的邮件中表示,Fable 5“是一个新颖且聪明的解决方案,但它会受到攻击。阻止恶意使用的同一层也会阻止合法的防御性研究。”他尝试使用该平台构建数字取证技能时,发现自己被降级到了Opus 4.8。Lee认为,这种限制将新的防御能力挡在了下一代工具构建者之外。他还指出,即使是在Glasswing项目下,访问也受到限制和监控,但这些组织拥有数千名员工,其中任何一人都可能被激励将访问权限交给犯罪集团,或者内部已经潜伏着朝鲜(DPRK)人员。

面对舆论压力,Anthropic迅速做出了回应。公司宣布将改变Fable 5针对前沿LLM开发的安全措施,使其可见。从本周开始,被标记的请求会明确回退到Opus 4.8,并在API中返回拒绝理由。Anthropic表示,当前的安全措施“涵盖了一小部分狭窄的任务,如前沿规模的LLM数据管道和某些非标准芯片的内核开发”。公司强调,这些护栏旨在防止外国对手以造成严重安全风险的方式使用其最强大的模型。

专家们对此看法不一。IAPP AI治理中心的常务董事Ashley Casovan称赞Anthropic推迟Mythos的发布直到“在软件中设置了必要的护栏”,但她同时指出,“我们尚未看到这些模型在此规模下发布时会产生的影响”。Zero Networks的现场CTO Chris Boehm则将这一成就归结为克制而非原始能力:Anthropic“将其驯服到足够安全的程度以便广泛发布”。Cato Networks的威胁情报副总裁Etay Maor认为,Fable 5的保护足以防御机会主义黑客,但“资金充足且动机明确的攻击者”不会因为一种技术被阻止就放弃,他们会转向上下文操纵、分解、抽象技术或能力蒸馏等其他方法。

此外,还有一个数据保留问题。据Reuters报道,Anthropic对Mythos类模型的提示和响应保留30天的政策,足以让微软限制员工使用并组建法律团队评估该政策。Fable和Mythos是例外,它们不能使用零数据保留,因为安全分类器需要数据才能工作。这种缺少关闭选项的做法正是触发微软法律团队的原因。Maor指出,从企业角度来看,30天的保留要求值得关注,受监管行业的组织需要确切了解哪些数据被保留,以及是否符合其合规和法律要求。

回顾整个事件,几乎没有人质疑Fable的原始能力,争论完全集中在“口套”上。一派认为它太紧,阻止攻击者的同时也会绊倒防御者和研究人员;另一派认为它无关紧要,动机明确的对手会绕开它,能力已经扩散到其他实验室,而且正如Lee指出的,没有任何限制能在数千名员工和坚定的内部人员面前幸存。与此同时,也有专家真正赞扬Anthropic在发布如此强大模型时没有鲁莽行事,前提是这些护栏确实有效。在我看来,这是公司真正应得的赞誉。