2026-05-22 18:49 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AIhub咖啡角：世界模型

本月AIhub咖啡角邀請了多位人工智能專家，圍繞“世界模型”這一熱門話題展開討論。專家們探討了世界模型的不同定義、潛在應用以及面臨的挑戰，包括在機器人訓練、手術模擬等領域的案例，並分析了其與語言模型、因果模型等概念的異同。

來源AIhub作者: AIhub

在本月的AIhub咖啡角中，來自多所大學的人工智能專家齊聚一堂，深入探討了“世界模型”這一概念。參與討論的專家包括弗吉尼亞理工大學的Sanmay Das、加州大學爾灣分校的Rina Dechter、俄勒岡州立大學的Tom Dietterich、布里斯托大學的Sabine Hauert、布朗大學的Michael Littman以及卑爾根大學的Marija Slavkovik。

討論由Sabine Hauert的觀察開始：世界模型近期備受關注，並有大量資金投入。她提到，英偉達在布里斯托機器人實驗室的一次培訓中展示了其最新工具，其中包括用於生成模擬環境的世界模型，可用於訓練機器人策略。她對此產生濃厚興趣，但同時也質疑：這是否僅僅是將語言處理擴展到視頻，並假裝具有物理屬性，還是真的能夠生成對機器人直接有用的環境？

Michael Littman隨後為世界模型提供了更傳統的定義：在強化學習中，世界模型通常被稱為轉移模型，用於描述在給定世界狀態和動作後，下一狀態的概率分佈。有了好的世界模型，就可以在現實世界之外進行決策規劃。他舉了一個例子：設想將一塊巧克力扔向攝像頭，我們可以利用模型提前推理，避免做出糟糕的決定。

然而，Littman也指出，從視頻中學習世界模型是更困難的任務，因為它需要從未完全觀測到的狀態中預測未來。如果訓練大量視頻，可能得到類似於視頻生成器的結果。而Yann LeCun的新公司AMI則聲稱其核心是世界模型，但並非視頻生成器，而是用於化工等領域的數字孿生。

Tom Dietterich補充説，這種應用與數字孿生相似，但驗證模型仍是一大挑戰。例如，自動駕駛公司比如Waymo和Waabi會構建此類模型來模擬致命碰撞，但如何驗證這些模型在非常規狀態下的泛化能力尚不明確。

Sanmay Das提出了一個觀點：自然語言處理領域的發展表明，無需真正理解語言屬性就能構建有效的語言模型。類似地，世界模型可能只是另一種時間序列預測任務，而非真正具有物理或動力學的模型。Rina Dechter則引入了因果模型的概念，認為世界模型應能回答因果和反事實問題，這與單純的轉移模型有所不同。

Marija Slavkovik將討論引向實際數據集，她以Niantic利用《寶可夢GO》收集數據構建世界模型為例，質疑這種模型與“世界模型”的本質區別。

Sabine再次回到英偉達的例子，展示了手術中末端執行器與軟組織交互的視頻。通過世界模型訓練，可以生成大量這類複雜交互的實例，儘管模型仍不完美，出現末端執行器漂浮等錯誤。她認為這種窄領域的應用才是真正有價值的地方，不應過分誇大術語。

Sanmay回應説，語言模型的發展出乎意料地成功，儘管最初只是遞歸地預測下一個詞。也許世界模型也能通過逐步視頻預測，最終實現從視頻中推導出複雜的動作序列，但他對此持懷疑態度。Tom指出，語言沒有部分可觀測性問題，而機器人操作中缺乏觸覺信息，使得推斷物理特性變得極具挑戰。

最後，Sabine提到一些公司正在收集工人手腕的運動數據來訓練機器人手臂，但所需數據量巨大，與語言領域的成功模式難以兼容。她認為機器人社區仍在探索前進的方向。Rina則總結道，我們至今仍未完全理解大語言模型的工作原理，世界模型的研究同樣面臨這一困境。