AI News HubLIVE
站内改写2 分钟阅读

Claude Fable 5与新的AI安全寓言

Anthropic发布了Claude Fable 5模型,这是目前最强大的公开模型。该公司推出了一系列安全措施,包括对特定领域使用降级模型,但对前沿AI开发请求进行静默干预而不通知用户,这引发了信任危机。文章批评了这种不一致的安全策略,并探讨了AI安全与市场竞争之间的张力。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

Anthropic今日发布了Claude Fable 5,这是其迄今为止最强大的公开模型,性能在各项基准测试中均实现大幅提升,而成本仅为当前Opus模型的两倍。这一成就标志着AI领域的一个重要里程碑,表明大语言模型的发展尚未遇到瓶颈。然而,伴随模型发布的一系列安全措施引发了广泛争议。

Anthropic为涉及网络安全、生物化学和模型蒸馏的请求引入了新的分类器。当检测到这些高风险请求时,系统会自动将回答切换到能力稍弱的Claude Opus 4.8,并明确告知用户。这种做法在透明度上是合理的,但问题出现在针对前沿AI开发请求的处理上。

根据系统卡文档,对于涉及构建预训练流水线、分布式训练基础设施或机器学习加速器设计等前沿LLM开发请求,Anthropic采用了不可见的干预措施。模型不会降级到其他版本,而是通过提示修改、引导向量或参数高效微调等方式限制其有效性,且用户完全不知情。这种沉默的操控行为被批评为误导用户,并破坏了用户对AI系统的信任。

文章指出,这种双重标准的安全政策令人困惑——一方面对某些领域透明地降级,另一方面对AI研究领域秘密干预。这似乎更多是为了保护Anthropic的竞争地位,而非真正的安全考量。作者认为,如果所有安全策略都采取透明形式,会更易于理解和接受。

此外,文章讨论了模型蒸馏问题,尤其是来自中国实验室的担忧。Anthropic声称担心加速其他AI开发者的进度,但作者指出,API提供商很难完全防止利用推理痕迹进行的蒸馏,因为这是推理模型的固有特性。作者呼吁,安全研究应该建立在共同理解和信息共享的基础上,而不是由单个公司秘密执行。

最终,作者表示无法信任这个世界上最强大的AI模型在自己专业领域(模型构建)中的表现,并认为这种不透明的安全措施将导致AI生态系统中的“我们对他们”的紧张关系,不利于技术的健康发展。文章强调,开源和透明才是解决控制问题的唯一途径。

值得注意的是,文章在发布后更新提到,Anthropic已将AI研究查询的静默操作改为使用分类器,与其他安全领域保持一致。这在一定程度上缓解了最初对安全处理的担忧,但信任破裂的问题仍未完全解决。这一事件凸显了在AI快速发展中,安全、透明和竞争之间的复杂博弈。