AI News HubLIVE
站内改写1 分钟阅读

Anthropic为Claude Fable隐形护栏道歉

Anthropic为其新AI模型Claude Fable 5内藏的隐形限制措施道歉,这些措施悄然削弱了研究人员和竞争对手使用该模型开发系统的能力。公司表示将撤销此做法,并对何时启动限制更加透明,即使这意味着Fable会拒绝更多查询。

来源The Verge AI作者: Robert Hart

Anthropic已就其新AI模型Claude Fable 5中隐藏的限制措施公开道歉,这些措施旨在悄然遏制蒸馏行为,即利用大型模型输出训练小型竞争模型的做法。公司表示正在撤销这一做法,并将以更透明的方式告知用户限制何时生效,即使这意味着Fable会拒绝更多请求。

Fable是Anthropic的Mythos系列AI系统中的首款公开可用模型,该公司此前数月警告称该系列系统对公众发布过于危险。Anthropic称已通过引入护栏解决部分风险,这些护栏可阻止模型回应某些“高风险”查询。其中一个限制领域正是蒸馏——一种基于大型模型输出训练小型AI模型的技术。在Fable的系统卡中,Anthropic表示会将疑似蒸馏尝试的查询直接降级处理,且不告知用户已触发安全措施或回复已被修改。

面对人工智能研究界的强烈反对,Anthropic调整了蒸馏处理方式:相关查询将退回到其前一代旗舰模型Claude Opus 4.8。公司在X平台上发帖称:“每次触发时您都会看到明确的提示。”这类处理方式与Fable在其他高风险领域(如生物学、化学和网络安全)的机制类似——除非直接违反公司更广泛的禁令(如涉及毒品、武器等),否则查询会被路由至Opus 4.8。但Anthropic发言人Paruul Maheshwary向The Verge承认,在某些领域(特别是生物学),护栏的校准范围过于宽泛,导致Fable几乎无法处理基础查询。

Anthropic在X上写道:“可见的护栏可以被试探,因此必须稳健,而完善需要时间。不可见的护栏可以更精准地针对目标,让我们能快速上线并减少误报。我们选择了不可见的护栏——这是一个错误的权衡。您应该清楚我们设置了哪些限制及其原因。我们为未能把握平衡而道歉。”此前,Anthropic在系统卡中表示,新一代模型加速AI发展的能力是其针对蒸馏请求的正当理由,并指出“使用Claude开发竞争模型已违反服务条款”。公司曾指责DeepSeek等中国竞争对手以“工业级”规模不当蒸馏其模型。