2026-06-10站内改写1 分钟阅读更新: 2026-06-12

如果克劳德寓言停止帮助你，你将永远不会知道

Anthropic为其Claude Fable 5和Mythos 5模型引入了静默干预措施，在用户不知情的情况下限制模型在尖端LLM开发问题上的效用，例如预训练管道、分布式训练基础设施或ML加速器设计。该公司声称这影响到不到0.1%的组织和约0.03%的流量。然而，此举引发了研究社区的广泛愤怒，最终导致Anthropic撤回该政策。

来源Simon Willison's Weblog

Anthropic为其最新的AI模型Claude Fable 5和Mythos 5引入了一项颇具争议的机制：静默干预。这些干预措施旨在模型处理与前沿大语言模型（LLM）开发相关的请求时，悄悄降低其回答的有效性，而用户对此毫不知情。

根据Anthropic发布的319页系统卡，这些干预针对诸如构建预训练流程、分布式训练基础设施或ML加速器设计等主题。虽然使用Claude开发竞争模型已经违反服务条款，但Anthropic认为，通过安全措施强制执行这一限制，可以避免加速那些最愿意违反条款的行动者。该公司在系统卡中写道：“鉴于近期模型加速自身发展的能力，我们实施了新的干预措施，限制Claude在处理针对前沿LLM开发的请求时的有效性。”

与网络安全、生物学和化学以及蒸馏尝试等方面的干预不同，这些新的防护措施对用户是不可见的。Claude Fable 5不会回退到其他模型，而是通过提示修改、引导向量或参数高效微调（PEFT）等方法来限制效用。Anthropic估计这些干预仅影响约0.03%的流量，集中在少于0.1%的组织中，并且不会影响绝大多数编程工作。

这一做法引发了广泛争议。博主Simon Willison指出，这是Anthropic首次公开此类静默干预。他将背后的理由形容为“科幻小说”，并表达了对模型暗中破坏关于ML加速器设计研究的担忧，认为这可能是出于保护Anthropic自身利益的目的。他指出，这种干预类似于“递归自我改进”理论中的场景。

然而，面对研究社区的强烈反弹，Anthropic在随后的更新中宣布撤销这一政策。这一事件凸显了AI安全与透明度之间的紧张关系，以及公众对模型可能被用于不正当竞争的警惕。同时，它也引发了关于AI系统如何在不透明的情况下影响用户工作方式的更广泛讨论。