2026-05-30 00:14 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

具身认知与代理型AI

本文探讨了具身认知的概念，即智能不仅存在于大脑中，还延伸至工具和环境。作者认为，将AI融入聊天界面是赋予其智能的关键一步，而代理型AI通过让AI使用工具和制定计划，进一步扩展了机器智能。文章批评了单纯依赖思考的“思维主义”，并以Yoshua Bengio的Law Zero项目为例，指出脱离现实实验的AI无法真正解决问题。

来源Hacker News AI作者: ibobev

你的智能位于何处？在你的大脑中？这是一个过于简单的答案。更好的模型是：你的智能是具身的。

想象一位在高档餐厅工作的厨师。他拥有所有心爱的刀具和烹饪指南，且都放置在他想要的位置。他的厨房是他智能和技能的一部分。同样的厨师在你的厨房里可能比你做得好，但他无法复制在他最爱的厨房里能做出的菜肴。

我们常常通过白板测试来评估程序员，这引发了无数抱怨。程序员们正确指出，这让他们脱离了熟悉的环境。当你拿走他们的笔记本电脑时，他们的表现就会下降。这不是借口，而是一个真实的问题：你切断了他们智能的一部分。

总而言之，将智能视为一个与外界隔绝的缸中大脑的模型是荒谬的。

如果你接受具身智能的观点，那么许多我们视为智能结果的行为实际上是智能的一部分。首先是语言。我们互相交谈或书写的能力意味着我不受限于自身。你有没有听说过孤立在小部落中的人类取得了技术突破？没有。进步需要许多人共同交流。直到几十年前，进步还需要城市。今天我不太确定，因为我越来越能在世界任何地方与任何人交流。但语言仍然至关重要，我们还没有发明出更好的东西。同样，拥有双手和制造复杂工具（如笔记本电脑）的能力使我们能够扩展智能。

2022年底，我们迎来了一项突破性技术：ChatGPT。它建立在几个已有理念之上，例如（大型）语言模型、神经网络等。这是“GPT”部分。但突破的一个重要且被低估的部分是“Chat”组件。有人想到了将大型语言模型与聊天界面连接起来。也许这对构建该系统的人来说是自然而然且显而易见的，但不应认为它微不足道或不重要。

语言是我们智能的关键组成部分，因此，它对机器智能也至关重要。

我们将AI软件具身于一个聊天框中。

下一步就是我们今天所说的“代理型AI”。我们保留聊天框，但增添了AI软件与工具交互并制定使用计划的能力。实际上，我们赋予了AI更多的自主权：它可以做事情并从结果中学习。它开始像拥有双手和工具的人类。

上周我与一位同事交谈。我的同事全身心投入AI革命。他用AI帮助自己写得更快更好，并更快完成数据分析，减少了对技术专家的依赖。

但我的同事并不了解代理型AI的方法。我试图在电话中解释。让AI访问工具有什么意义？这只是为了节省复制粘贴AI回复的精力吗？

最后我制作了一个视频，在RStudio（一个用于R编程和数据分析的环境）中启动了一个AI。我不使用R或RStudio，但借助AI，我能够在几分钟内构建一个完整的气候研究项目，包括从网络获取数据。

AI是如何做到的？我录制了过程。它尝试了几种方法，最初在下载数据时遇到困难。在某个时刻，它发现需要新的R包，于是安装它们，安装完成后开始生成图形，并验证其是否有效。

代理型AI通过改善AI的具身性大大扩展了机器智能。

我认为它还没有得到应有的理解。

在蒙特利尔，AI领域最资深的教授是Yoshua Bengio。他几年前创办了自己的非平凡企业（Element AI）。他的最新项目是Law Zero，旨在创建一个“科学家AI”。该项目的首要目标是构建没有代理组件的AI。它应该是一个没有自身目标、没有自主权的脱离肉身的AI。

我担心Bengio患上了Kevin Kelly所谓的“思维主义”。让我引用Kelly 2008年文章中的话：

“没有哪种智能，无论多么超级，能够通过阅读世界上所有已知科学文献并思考得出人体如何运作的结论。没有超级AI能够仅仅通过思考所有当前和过去的核裂变实验就在一天内实现可行的核聚变。从不知道事物如何工作到知道它们如何工作，远不止思维主义。现实世界中有大量的实验产生大量的数据，这些数据是形成正确工作假设所必需的。思考潜在的数据不会产生正确的数据。思考只是科学的一部分，甚至可能是很小的一部分。（……）思维主义是不够的。没有进行实验、构建原型、经历失败和接触现实，智能可以有想法但没有结果。它无法通过思考来解决世界的问题。（……）奇点是一个幻象，它会不断退却——总是‘接近’但从未到来。我们会疑惑为什么在拥有AI后它还没有到来。然后有一天，我们会意识到它已经发生了。超级AI来了，但我们认为它会立即带来的一切——个人纳米技术、大脑升级、永生——并没有到来。取而代之的是其他我们未曾预料且需要长时间才能欣赏的好处。由于我们没有看到它们的到来，我们会回顾并说，是的，那就是奇点。”

我认为大学教授尤其容易陷入思维主义。他们将智能视为以大脑中发生的事情为中心。当你住在象牙塔中时，很容易忽视现实世界作为智能的核心来源。此外，他们往往是在思维主义盛行的学校中表现优异的人。

我一生中大部分时间都是教授。然而，我很快就厌倦了与其他教授交谈。我最喜欢与那些在现实世界中应用新工具的人一起工作。毫不奇怪，我大部分时间都花在了人们在实际中部署的软件上。

Kelly所言的是，高度的智能并不足以做很多事情。现实世界不是你思维过程的最后阶段，它可能是其中最重要的部分。

因此，当你将AI与现实世界连接，赋予它进行实验的能力（正如今天几乎所有软件开发者所做的那样），你会得到远超AI软件独立运作所能达到的令人印象深刻的结果。

自主权不是一个特性。自主权是首要的。