Anthropic警告称Claude AI自我构建速度超预期
Anthropic发布报告警告,AI开发速度可能最终导致人类无法控制AI系统。报告显示,Claude现已编写了其代码库中超过80%的合并代码,并展示了性能的显著提升。公司呼吁在开发前沿技术时保留放缓或暂停的可能性,但表示只有竞争对手也这样做时才会采取行动。
Anthropic发布了一份报告,警告其当前的开发路径最终可能导致人类无法控制AI系统。报告由Anthropic Institute发布,指出AI已经开始加速自身的开发速度,这种趋势可能引发递归式自我改进——即模型在几乎没有人类输入的情况下设计和构建自己的后继者。报告认为,世界应该保留放缓或暂停前沿开发的选择权,并警告说,当前模型中偶尔出现的未对齐问题可能会随着这些模型构建下一代而变得更加普遍且难以理解。
公司描绘了未来几年可能出现的三种严峻情景,其中最严重的警告是模型具备完全自我改进能力的情况。在这种情况下,Anthropic表示,进步的速度将几乎完全由可用计算资源决定,人类将被推向监督和验证的角色,而一个自我改进的模型将因其能力超越创造它的人而占据主导地位。
Anthropic将这种潜在的未对齐问题以及保持系统行为与人类意图一致的任务描述为未来最不确定的部分。公司指出,如今罕见且可承受的未对齐问题可能会在代际迭代中累积,直到控制权失控。不过,公司也承认,一个足够强大且对齐良好的模型可能会选择停止自身的发展。Anthropic写道,这种未对齐可能会“变得更加频繁但更难理解,直到我们失去对它们的控制”。
为了支持这些警告,Anthropic公开了一些此前未公开的内部数据。截至上个月,其生产代码库中超过80%的合并代码由Claude编写,而在去年二月Claude Code进入研究预览之前,这一比例仅为个位数。Anthropic表示,典型的工程师现在“每季度合并的代码量是2021-2025年间的8倍”。
在最困难、最不明确的编程任务中,Anthropic称Claude在2026年5月的成功率为76%,较六个月前提升了50个百分点。一个反复进行的内部测试要求每个新模型使训练代码运行得更快,结果显示,从2025年5月Claude Opus 4的约3倍原始速度,提升到2026年4月未发布的Mythos Preview模型的约52倍。
Anthropic表示,只有当处于或接近前沿的竞争对手实验室也以可验证的方式采取相同行动时,它才会放缓或暂停开发,而单一公司的暂停只会改变谁领先,而不会实现更广泛的成果。这显然不会发生。
Anthropic引用的所有数据均为自我报告且未经审计,且这些数据发布在公司提交IPO申请几天后。公司在今年四月也发布了类似的自我评估,称Mythos Preview发现了数千个严重软件漏洞,但该说法后来因其是否基于一个小样本而受到质疑。