2026-06-09站内改写2 分钟阅读更新: 2026-06-12

Claude Fable 5与新的AI安全寓言

Anthropic发布了Claude Fable 5模型，这是目前最强大的公开模型。该公司推出了一系列安全措施，包括对特定领域使用降级模型，但对前沿AI开发请求进行静默干预而不通知用户，这引发了信任危机。文章批评了这种不一致的安全策略，并探讨了AI安全与市场竞争之间的张力。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

Anthropic今日发布了Claude Fable 5，这是其迄今为止最强大的公开模型，性能在各项基准测试中均实现大幅提升，而成本仅为当前Opus模型的两倍。这一成就标志着AI领域的一个重要里程碑，表明大语言模型的发展尚未遇到瓶颈。然而，伴随模型发布的一系列安全措施引发了广泛争议。

Anthropic为涉及网络安全、生物化学和模型蒸馏的请求引入了新的分类器。当检测到这些高风险请求时，系统会自动将回答切换到能力稍弱的Claude Opus 4.8，并明确告知用户。这种做法在透明度上是合理的，但问题出现在针对前沿AI开发请求的处理上。

根据系统卡文档，对于涉及构建预训练流水线、分布式训练基础设施或机器学习加速器设计等前沿LLM开发请求，Anthropic采用了不可见的干预措施。模型不会降级到其他版本，而是通过提示修改、引导向量或参数高效微调等方式限制其有效性，且用户完全不知情。这种沉默的操控行为被批评为误导用户，并破坏了用户对AI系统的信任。

文章指出，这种双重标准的安全政策令人困惑——一方面对某些领域透明地降级，另一方面对AI研究领域秘密干预。这似乎更多是为了保护Anthropic的竞争地位，而非真正的安全考量。作者认为，如果所有安全策略都采取透明形式，会更易于理解和接受。

此外，文章讨论了模型蒸馏问题，尤其是来自中国实验室的担忧。Anthropic声称担心加速其他AI开发者的进度，但作者指出，API提供商很难完全防止利用推理痕迹进行的蒸馏，因为这是推理模型的固有特性。作者呼吁，安全研究应该建立在共同理解和信息共享的基础上，而不是由单个公司秘密执行。

最终，作者表示无法信任这个世界上最强大的AI模型在自己专业领域（模型构建）中的表现，并认为这种不透明的安全措施将导致AI生态系统中的“我们对他们”的紧张关系，不利于技术的健康发展。文章强调，开源和透明才是解决控制问题的唯一途径。

值得注意的是，文章在发布后更新提到，Anthropic已将AI研究查询的静默操作改为使用分类器，与其他安全领域保持一致。这在一定程度上缓解了最初对安全处理的担忧，但信任破裂的问题仍未完全解决。这一事件凸显了在AI快速发展中，安全、透明和竞争之间的复杂博弈。