2025-06-04 22:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AGI並非多模態

本文作者認為，通過多模態擴展來實現通用人工智能（AGI）的道路註定失敗。真正的智能需要具身認知和對物理世界的理解，而當前的大型語言模型（LLM）和多模態模型僅從符號處理中學習，缺乏對現實的深層把握。作者主張放棄拼湊多模態的方式，轉向以具身交互為核心的智能研究。

來源The Gradient作者: Benjamin A. Spiegel

近年來，生成式AI模型的成功讓一些人認為通用人工智能（AGI）即將到來。然而，本文作者Benjamin A. Spiegel指出，這些模型雖然表面上模仿了人類智能，卻違背了我們對智能最基本直覺的理解。它們之所以出現，並非因為解決了智能的本質問題，而是由於在現有硬件上有效擴展的結果。多模態方法是這一趨勢的典型代表，它將大規模模塊化網絡針對多種模態進行優化，整體看似通用。但Spiegel認為，這種策略在短期內註定失敗，無法實現人類水平的AGI，例如完成感覺運動推理、運動規劃和社會協調等任務。

作者首先論證了真正的AGI需要對物理世界有所理解，許多問題無法轉化為符號操作。儘管有人認為LLM通過預測下一個token學習到了世界模型，但更可能的是，它們只是學會了預測token的啓發式規則集。這種對現實的理解是膚淺的，導致了對智能的誤解。例如，OthelloGPT雖然能預測棋步，但所學的規則並非對所有對局都成立，這表明它並未真正掌握棋局的底層模型。

接着，Spiegel區分了句法、語義和語用學。他認為，LLM可能將語義和語用問題簡化為句法問題，從而通過大量語料學習到複雜的語法規則，但這並不等同於理解世界。人類語言理解是這三種能力的融合，而LLM僅靠句法無法真正把握含義。例如，句子“冰箱在蘋果裏”在句法上沒有問題，但人類知道它的語義錯誤，因為冰箱比蘋果大。如果LLM從未感知過真實世界，它可能通過發明新的句法類別來避免這種錯誤，但這並不是真正的語義理解。

文章還批評了多模態方法。儘管Sutton的“苦澀教訓”強調利用計算資源而非人工結構，但作者認為，過多依賴結構無關的規模擴展會忽略人類直覺帶來的重要進步。多模態模型將不同模態編碼到同一潛在空間，但“意義”在模態間可能不一致，且這種劃分方式並非基於智能的本質。此外，從規模中學習只是複製了人類現有的概念結構，而非培養形成新概念的能力。

最後，Spiegel提出兩種替代方案：一是精心設計如何融合模態，借鑑人類直覺和經典研究；二是將學習重新定義為具身互動過程，讓不同模態自然融合。雖然這可能犧牲效率，但將獲得更靈活的認知能力。他認為，AGI的最大數學挑戰——通用函數逼近器——已經解決，剩下的問題是確定所需函數並安排它們組成一個連貫的整體，這是一個概念問題，而非數學問題。

此外，作者還討論了OthelloGPT和VLM的侷限性，指出多模態模型需要更多的具身數據，而非僅僅依賴文本和圖像。他主張，真正的AGI應該能夠解決物理世界中的問題，如修理汽車、解結、準備食物等，這些都需要基於物理世界模型的推理。目前的多模態方法通過預訓練專門的神經模塊並將它們連接到聯合嵌入空間，但這往往忽略了模態之間的深層聯繫。

總之，Spiegel呼籲放棄通過拼湊多模態模塊來製造AGI的嘗試，轉而追求一種以具身和交互為核心的智能研究範式。他認為，只有通過具身互動，我們才能培養出真正通用的智能，而不僅僅是一些看似智能的統計模式。