2025-06-04 22:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

AGI并非多模态

本文作者认为，通过多模态扩展来实现通用人工智能（AGI）的道路注定失败。真正的智能需要具身认知和对物理世界的理解，而当前的大型语言模型（LLM）和多模态模型仅从符号处理中学习，缺乏对现实的深层把握。作者主张放弃拼凑多模态的方式，转向以具身交互为核心的智能研究。

来源The Gradient作者: Benjamin A. Spiegel

近年来，生成式AI模型的成功让一些人认为通用人工智能（AGI）即将到来。然而，本文作者Benjamin A. Spiegel指出，这些模型虽然表面上模仿了人类智能，却违背了我们对智能最基本直觉的理解。它们之所以出现，并非因为解决了智能的本质问题，而是由于在现有硬件上有效扩展的结果。多模态方法是这一趋势的典型代表，它将大规模模块化网络针对多种模态进行优化，整体看似通用。但Spiegel认为，这种策略在短期内注定失败，无法实现人类水平的AGI，例如完成感觉运动推理、运动规划和社会协调等任务。

作者首先论证了真正的AGI需要对物理世界有所理解，许多问题无法转化为符号操作。尽管有人认为LLM通过预测下一个token学习到了世界模型，但更可能的是，它们只是学会了预测token的启发式规则集。这种对现实的理解是肤浅的，导致了对智能的误解。例如，OthelloGPT虽然能预测棋步，但所学的规则并非对所有对局都成立，这表明它并未真正掌握棋局的底层模型。

接着，Spiegel区分了句法、语义和语用学。他认为，LLM可能将语义和语用问题简化为句法问题，从而通过大量语料学习到复杂的语法规则，但这并不等同于理解世界。人类语言理解是这三种能力的融合，而LLM仅靠句法无法真正把握含义。例如，句子“冰箱在苹果里”在句法上没有问题，但人类知道它的语义错误，因为冰箱比苹果大。如果LLM从未感知过真实世界，它可能通过发明新的句法类别来避免这种错误，但这并不是真正的语义理解。

文章还批评了多模态方法。尽管Sutton的“苦涩教训”强调利用计算资源而非人工结构，但作者认为，过多依赖结构无关的规模扩展会忽略人类直觉带来的重要进步。多模态模型将不同模态编码到同一潜在空间，但“意义”在模态间可能不一致，且这种划分方式并非基于智能的本质。此外，从规模中学习只是复制了人类现有的概念结构，而非培养形成新概念的能力。

最后，Spiegel提出两种替代方案：一是精心设计如何融合模态，借鉴人类直觉和经典研究；二是将学习重新定义为具身互动过程，让不同模态自然融合。虽然这可能牺牲效率，但将获得更灵活的认知能力。他认为，AGI的最大数学挑战——通用函数逼近器——已经解决，剩下的问题是确定所需函数并安排它们组成一个连贯的整体，这是一个概念问题，而非数学问题。

此外，作者还讨论了OthelloGPT和VLM的局限性，指出多模态模型需要更多的具身数据，而非仅仅依赖文本和图像。他主张，真正的AGI应该能够解决物理世界中的问题，如修理汽车、解结、准备食物等，这些都需要基于物理世界模型的推理。目前的多模态方法通过预训练专门的神经模块并将它们连接到联合嵌入空间，但这往往忽略了模态之间的深层联系。

总之，Spiegel呼吁放弃通过拼凑多模态模块来制造AGI的尝试，转而追求一种以具身和交互为核心的智能研究范式。他认为，只有通过具身互动，我们才能培养出真正通用的智能，而不仅仅是一些看似智能的统计模式。