AI News HubLIVE
站内改写1 分钟阅读

如果克劳德寓言停止帮助你,你将永远不会知道

Anthropic为其Claude Fable 5和Mythos 5模型引入了静默干预措施,在用户不知情的情况下限制模型在尖端LLM开发问题上的效用,例如预训练管道、分布式训练基础设施或ML加速器设计。该公司声称这影响到不到0.1%的组织和约0.03%的流量。然而,此举引发了研究社区的广泛愤怒,最终导致Anthropic撤回该政策。

Anthropic为其最新的AI模型Claude Fable 5和Mythos 5引入了一项颇具争议的机制:静默干预。这些干预措施旨在模型处理与前沿大语言模型(LLM)开发相关的请求时,悄悄降低其回答的有效性,而用户对此毫不知情。

根据Anthropic发布的319页系统卡,这些干预针对诸如构建预训练流程、分布式训练基础设施或ML加速器设计等主题。虽然使用Claude开发竞争模型已经违反服务条款,但Anthropic认为,通过安全措施强制执行这一限制,可以避免加速那些最愿意违反条款的行动者。该公司在系统卡中写道:“鉴于近期模型加速自身发展的能力,我们实施了新的干预措施,限制Claude在处理针对前沿LLM开发的请求时的有效性。”

与网络安全、生物学和化学以及蒸馏尝试等方面的干预不同,这些新的防护措施对用户是不可见的。Claude Fable 5不会回退到其他模型,而是通过提示修改、引导向量或参数高效微调(PEFT)等方法来限制效用。Anthropic估计这些干预仅影响约0.03%的流量,集中在少于0.1%的组织中,并且不会影响绝大多数编程工作。

这一做法引发了广泛争议。博主Simon Willison指出,这是Anthropic首次公开此类静默干预。他将背后的理由形容为“科幻小说”,并表达了对模型暗中破坏关于ML加速器设计研究的担忧,认为这可能是出于保护Anthropic自身利益的目的。他指出,这种干预类似于“递归自我改进”理论中的场景。

然而,面对研究社区的强烈反弹,Anthropic在随后的更新中宣布撤销这一政策。这一事件凸显了AI安全与透明度之间的紧张关系,以及公众对模型可能被用于不正当竞争的警惕。同时,它也引发了关于AI系统如何在不透明的情况下影响用户工作方式的更广泛讨论。