Anthropic的Fable是迄今为止最受限制的公开模型
Anthropic发布Claude Fable 5,因计划暗中降低对涉及前沿大模型开发问题的回答质量而引发争议。批评者认为此举阻碍研究且损害信任。Anthropic随后调整策略,改为透明地降级用户至较弱的Claude Opus 4.8。即便如此,Fable 5的安全过滤仍比其他前沿模型严格,甚至对“什么是蛋白质?”这类问题也会触发降级。文章详细解释了Anthropic的安全过滤机制及其演变。
本周二,Anthropic发布了其最新模型Claude Fable 5。然而,在系统卡第13页的一则声明迅速引发了广泛抗议。AI研究员Nathan Lambert称其“令人震惊”,前特朗普政府AI政策官员Dean Ball则写道“充满敌意”,许多其他人也加入了批评行列。
引发众怒的声明是:Anthropic计划对看似“针对前沿大模型开发”的提示进行回答质量的微妙降级。解读其弦外之音,Anthropic似乎担心竞争对手,尤其是中国公司,会利用Claude构建竞争模型。Anthropic声称这种降级“对用户不可见”。
批评者担忧,这些限制及其保密性将阻止学术研究人员对模型进行基准测试或从事公共利益相关的AI研究。还有人指出,这种暗中行为使得任何Anthropic的发布都难以信任:Lambert写道,一个“自动降低智能而不通知我的模型属于根本性失调”。
面对强烈反弹,Anthropic迅速让步。周三晚间,它宣布了新方案:不再暗中降级,而是透明地将请求帮助训练前沿大模型的用户切换至能力较弱的Claude Opus 4.8。
即便经过这一改变,Claude Fable 5的安全过滤几乎肯定比任何其他前沿模型都更严格。例如,周三当我问“什么是蛋白质?”时,竟触发了降级(今天同样的提问则得到正常回答)。这是因为Fable 5基于Claude Mythos——一个因极其强大的黑客能力而在四月被Anthropic决定不向公众发布的模型。在没有防护的情况下,Fable 5拥有与Mythos相同的黑客能力,因此Anthropic对模型行为极为保守。
Anthropic表示正在改进安全过滤,以减少此类误报,但不会放弃其整体激进策略。本文接着详细解释了Anthropic的安全过滤工作原理及其随时间演进的历程。Anthropic参考了两篇关键论文来构建其安全系统:一篇关于“宪法AI”方法,另一篇关于“红队测试”策略。这些论文展示了Anthropic如何通过迭代训练和分层过滤,在保持模型能力的同时,大幅降低有害输出的风险。最新的过滤系统于今年年初部署,不仅提高了对恶意提示的检测准确率,还显著降低了计算成本。
总的来说,Fable 5的发布凸显了前沿AI公司在开放性与安全性之间的艰难平衡。虽然Anthropic的保守策略受到批评,但其透明化的调整也体现了对公众关切的回应。未来,随着安全技术的进步,我们可能会看到更多类似的权衡。