AI进步是否正在放缓?
本文分析了关于AI能力进步是否放缓的争论。作者认为,模型扩展(scaling)并未终结,但行业领袖的预测不可靠;推理扩展(inference scaling)有潜力但存在局限性;能力提升与实际经济影响之间的关联很弱,产品开发和采用才是关键瓶颈。
自从2023年3月GPT-4发布以来,科技界的主流叙事是持续扩展模型规模将通往人工通用智能甚至超级智能。然而,过去一个月内,《信息报》、路透社和彭博社相继报道称,OpenAI、Anthropic和谷歌Gemini三家领先的AI开发者在下一代模型上都遇到了问题。曾经最坚定的扩展支持者之一伊利亚·苏茨克弗也改变了口吻,表示“2010年代是扩展的时代,现在我们又回到了惊奇与发现的时代”,并强调“以正确的方式扩展比以往任何时候都重要”。
但本文作者指出,现在宣布模型扩展已死还为时过早。我们早就知道GPT-4级别的模型已经用完了大部分易获取的数据,新想法是必要的。除非有证据表明许多想法都已尝试失败,否则不能断定模型扩展已走到尽头。例如,将YouTube视频(而非转录文本)加入多模态模型的训练集可能会解锁新能力,但这只有谷歌能做到,且我们不知道是否已被尝试。
关于行业内部人士的预测,作者认为他们并不比外界更了解情况。一方面,他们拥有专有信息,但优势最多不过几个月;另一方面,他们的技术专长并不比学术界强,而且商业利益严重扭曲了他们的判断。苏茨克弗的转变就是一个例子:在OpenAI时他需要强调扩展以吸引投资,而如今他领导的安全超级智能公司则需要说服投资者自己能用更少的资金竞争。
推理扩展(即测试时计算扩展)是当前的热点。OpenAI的o1和DeepSeek R1等推理模型通过让模型“思考”后再回答来提升性能。但这种方法并非万能:它对有明确正确答案的问题(如编程、数学)有效,但对写作、翻译等任务帮助有限。此外,推理扩展的改进幅度尚不确定。OpenAI在AIME基准上的图表显示性能可能接近饱和,但缺乏x轴标签。外部研究也表明,当验证器不完美时,多次尝试后的性能会达到峰值甚至下降。
短期内推理扩展有大量低垂果实可摘。例如,当前推理模型在代理系统(agentic systems)中表现不佳,因为其提示方式不同且未通过环境反馈进行强化学习训练。解决这些问题可能带来显著进步,如根据提示生成功能完整的复杂应用。但从长期看,推理扩展能否像模型扩展那样带来持续进步尚存疑问。模型扩展只需扩大数据、模型和算力,而推理扩展目前需要算法创新,且仅在有限领域有效。
最后,作者强调能力提升与AI的实际社会或经济影响之间关联极弱。瓶颈在于产品开发速度和采用率。例如,即使AI有强大的编程能力,但ChatGPT运行Python代码的方式仍令人困惑。开发可靠的产品需要更多软件工程技能,而AI公司过去对此关注不足。此外,采用还面临行为、组织和社会层面的障碍。
总之,模型扩展或许结束,或许没有。但它的终结将带来积极变化:AI进步再次依赖新想法而非算力;大小公司和学术界可在相对公平的平台上竞争;依赖训练计算阈值的监管更难辩护。至于未来,行业内部人士和其他人一样在摸索,是时候停止信任他们那些自信、自利、多变且模糊的预测了。