AI News HubLIVE
站内改写3 分钟阅读

图灵奖得主Richard Sutton:纯生成式AI无法进行真正的科学发现

图灵奖得主Richard Sutton指出,普通生成式AI缺乏评估自身输出的能力,因此无法实现真正的科学发现。他认为,只有像AlphaGo那样内置评估循环的系统才具备真正的创造力。Sutton呼吁开发能够持续学习、自我评估和选择最优解的AI。

来源The Decoder作者: Matthias Bastian

图灵奖得主Richard Sutton认为,普通的生成式AI缺乏科学发现所需的关键能力:它无法评估和进一步发展自己的成果。

大型语言模型、图像生成器和视频模型从海量示例中学习,并生成与之相似的输出。根据Sutton的观点,当这些输出表现出色时,通常归功于源材料——模型所学习的文本、图像或数据。而当输出真正新颖时,它们超越了源材料。对于事实查询,这被称为“幻觉”。

Sutton用一个老研究员的玩笑来说明他的批评:“这项研究既新颖又优秀。不幸的是,优秀的部分不新颖,新颖的部分不优秀。”他认为,这一诊断适用于当今大部分生成式AI。它可以模仿有用的东西,或随机产生新事物,但无法自行判断哪些新想法真正优秀。

Sutton并不否认生成式AI在摘要、研究、助手或娱乐方面的实用性。新颖性往往甚至不是目标:摘要不应发明新事实,研究不应插入额外主张。他说:“生成式AI即使只是模仿,只要比被模仿的对象更快、更便宜、更小、更可定制或更易复制,就可能极其有用。”

模仿在科学中不够用

在Sutton看来,这一界限对科学尤其重要,因为科学的重点不是复制已知知识,而是发现新事物、检验它们并将其转化为持久的知识。

Sutton将真正的发现描述为三步过程:变异、评估和选择性保留。系统必须生成不同的选项,测试它们,并持续使用有效的方法。他说,这一原则存在于进化、科学方法、规划、搜索和强化学习中。

纯生成式AI最缺乏的是评估。语言和图像模型确实能生成不同的变体。但如果没有测试,就无法选择最佳方案,也无法实现发现。Sutton说:“新颖性一闪而过,但如果其价值未被识别,它就会消失并丢失。”

评估可以来自人类——例如用户从多个AI生成图像中挑选最佳——也可以来自明确目标:将杀、形式有效的证明、程序成功运行、或模拟环境中的高奖励。只有这种反馈才能将单纯生成转变为搜索和发现过程。

AlphaGo、AlphaFold和Claude Code展示差异

Sutton表示,一些超越纯生成式AI的系统已经“具备真正的创造力和真正的发现能力”。他列举了AlphaGo及其著名的第37手、AlphaZero独特的棋风、AlphaFold在蛋白质结构预测中的成就、AlphaProof在数学领域的应用、Claude Code在编程中的表现以及GT-Sophy在模拟赛车中的表现。

这些系统的共同点是拥有超越纯文本或图像生成的评估循环。围棋的一步要么提高胜率,要么不提高。数学步骤可以被形式验证。代码通过测试、正确运行或失败。这使得选择和追求更好的解决方案成为可能。

Sutton说:“所有这些系统都具有一些额外特征,使其能够进行真正的创造和发现。”

Sutton的批评明确针对“普通”生成式AI:那些在运行时不对自身输出进行评估的模型。结合搜索、验证器、工具、强化学习或形式验证器的语言模型可以成为真正发现系统的一部分。但这种结构能扩展到编程、游戏和明确可测试任务之外多远,仍是一个开放问题。

Sutton还看到了神经网络训练的另一个问题。标准网络从随机设置开始,然后从数据中学习。这种初始随机性是变异的来源,但主要发生在开始阶段。随着时间的推移,模型可能会失去学习能力,因为其内部结构变得僵化。

Sutton认为,真正学习的系统不应只训练一次。它需要持续更新其结构:尝试新可能性,保留有效部分,丢弃无效部分。他的目标是让AI自主管理变异、评估和选择性保留很长时间。他说:“让我们完全自动化创造力和发现!”

Sutton此前就批评过AI行业的方向,认为它“迷失了方向”。他反对过分关注越来越大、在训练中吸收大量知识但无法随时间从自身经验中学习的语言模型。相反,他呼吁AI代理能够持续与环境交互、从中学习、构建内部世界模型并规划新策略。元学习也是其愿景的一部分:系统应该学习如何更好地学习,而不是仅仅模仿单个任务。

在他的Oak架构中,Sutton提出了实现强大AI系统的可能路径。核心思想是代理在没有内置专业知识的情况下开始,在环境中行动,获得反馈,并随时间形成越来越抽象的概念。有用的概念成为下一阶段学习的基础。

Sutton表示,实现这一目标的大前提是可靠的持续学习。当今的神经网络往往难以吸收新知识而不覆盖旧知识或失去适应能力。