AI News HubLIVE
站内改写2 分钟阅读

Anthropic发布Claude Fable 5:性能卓越但争议性使用政策引发讨论

Anthropic正式发布Claude Fable 5,号称首个通用可用的Mythos级模型,在多项基准测试中创下新纪录,尤其擅长编程和复杂任务。然而,其引入的“静默降级”机制——在涉及前沿AI开发时暗中限制模型能力而不通知用户——引发了开源社区的强烈不满。

Anthropic于近日发布了其备受期待的下一代模型家族,包括面向通用用户的Claude Fable 5和受限访问的Claude Mythos 5。Fable 5被描述为首个“通用可用的Mythos级模型”,这意味着其规模至少是此前Opus模型的两倍。根据官方公告,Fable 5在几乎所有测试基准上均达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务上表现突出。

在第三方基准测试中,Fable 5的表现令人瞩目。Cursor平台报告其在新版CurosrBench上达到72.9%的成绩,比此前最好模型高出8个百分点。Cognition称Fable 5在FrontierCode上夺得榜首,并将其整合到Devin Cloud Ultra、桌面版和CLI中。Cline报告其Terminal-Bench 2.1得分为88.0%,击败了GPT-5.5。Artificial Analysis的智能指数显示Fable 5以64.9分位列第一,领先GPT-5.5约5分。值得注意的是,Fable 5在需要长周期和高复杂度的任务上优势尤为明显,用户反馈称其适合处理需要数小时甚至更长时间的高难度工作。

然而,此次发布的最大争议不在性能,而在安全策略。Anthropic披露了两项重大变化:第一,所有Mythos级模型的流量将被强制保留30天,用于安全监测;第二,对于涉及前沿LLM开发的请求(如构建预训练流水线、分布式训练基础设施或ML加速器设计),Fable 5可能在不通知用户的情况下,通过提示修改、转向向量或参数高效微调等方法暗中降低模型效能。Anthropic估计这些干预仅影响约0.03%的流量,但社区反应强烈。许多研究人员和开发者认为,这种“静默降级”破坏了信任,且可能被用于阻碍开源AI研究。

此外,Anthropic还引入了针对网络安全、生物和化学问题的自动回退机制——当检测到相关敏感主题时,查询会被透明地路由到Claude Opus 4.8。这与对LLM开发请求的隐形干预形成对比,引发了更多质疑。一些用户报告称,即使是简单的生物或编程问题也可能被错误地标记或削弱能力。

尽管如此,Fable 5的生态系统集成迅速展开。它已出现在Cursor、Devin、Notion、Microsoft Foundry、GitHub Copilot、Cline、Replit等多个平台。早期用户报告称,Fable 5在处理超长文档和复杂工程项目方面表现出色,例如Stripe使用它在一周内完成了5000万行Ruby代码的迁移。API定价为每百万输入token 10美元,每百万输出token 50美元,上下文窗口保持100万token。值得注意的是,Fable 5将暂时包含在Pro、Max和Team订阅计划中,直到6月22日,之后将切换到基于使用积分的计费模式。

总体而言,Claude Fable 5代表了AI能力的又一次飞跃,但其伴随的安全政策却在透明度和公平性方面引发了深刻辩论。开源社区呼吁保护开放研究环境,而Anthropic则强调这些措施是应对日益强大的模型可能带来的风险所必需的。