AIhub咖啡角:世界模型
本月AIhub咖啡角邀請了多位人工智能專家,圍繞“世界模型”這一熱門話題展開討論。專家們探討了世界模型的不同定義、潛在應用以及面臨的挑戰,包括在機器人訓練、手術模擬等領域的案例,並分析了其與語言模型、因果模型等概念的異同。
在本月的AIhub咖啡角中,來自多所大學的人工智能專家齊聚一堂,深入探討了“世界模型”這一概念。參與討論的專家包括弗吉尼亞理工大學的Sanmay Das、加州大學爾灣分校的Rina Dechter、俄勒岡州立大學的Tom Dietterich、布里斯托大學的Sabine Hauert、布朗大學的Michael Littman以及卑爾根大學的Marija Slavkovik。
討論由Sabine Hauert的觀察開始:世界模型近期備受關注,並有大量資金投入。她提到,英偉達在布里斯托機器人實驗室的一次培訓中展示了其最新工具,其中包括用於生成模擬環境的世界模型,可用於訓練機器人策略。她對此產生濃厚興趣,但同時也質疑:這是否僅僅是將語言處理擴展到視頻,並假裝具有物理屬性,還是真的能夠生成對機器人直接有用的環境?
Michael Littman隨後為世界模型提供了更傳統的定義:在強化學習中,世界模型通常被稱為轉移模型,用於描述在給定世界狀態和動作後,下一狀態的概率分佈。有了好的世界模型,就可以在現實世界之外進行決策規劃。他舉了一個例子:設想將一塊巧克力扔向攝像頭,我們可以利用模型提前推理,避免做出糟糕的決定。
然而,Littman也指出,從視頻中學習世界模型是更困難的任務,因為它需要從未完全觀測到的狀態中預測未來。如果訓練大量視頻,可能得到類似於視頻生成器的結果。而Yann LeCun的新公司AMI則聲稱其核心是世界模型,但並非視頻生成器,而是用於化工等領域的數字孿生。
Tom Dietterich補充説,這種應用與數字孿生相似,但驗證模型仍是一大挑戰。例如,自動駕駛公司比如Waymo和Waabi會構建此類模型來模擬致命碰撞,但如何驗證這些模型在非常規狀態下的泛化能力尚不明確。
Sanmay Das提出了一個觀點:自然語言處理領域的發展表明,無需真正理解語言屬性就能構建有效的語言模型。類似地,世界模型可能只是另一種時間序列預測任務,而非真正具有物理或動力學的模型。Rina Dechter則引入了因果模型的概念,認為世界模型應能回答因果和反事實問題,這與單純的轉移模型有所不同。
Marija Slavkovik將討論引向實際數據集,她以Niantic利用《寶可夢GO》收集數據構建世界模型為例,質疑這種模型與“世界模型”的本質區別。
Sabine再次回到英偉達的例子,展示了手術中末端執行器與軟組織交互的視頻。通過世界模型訓練,可以生成大量這類複雜交互的實例,儘管模型仍不完美,出現末端執行器漂浮等錯誤。她認為這種窄領域的應用才是真正有價值的地方,不應過分誇大術語。
Sanmay回應説,語言模型的發展出乎意料地成功,儘管最初只是遞歸地預測下一個詞。也許世界模型也能通過逐步視頻預測,最終實現從視頻中推導出複雜的動作序列,但他對此持懷疑態度。Tom指出,語言沒有部分可觀測性問題,而機器人操作中缺乏觸覺信息,使得推斷物理特性變得極具挑戰。
最後,Sabine提到一些公司正在收集工人手腕的運動數據來訓練機器人手臂,但所需數據量巨大,與語言領域的成功模式難以兼容。她認為機器人社區仍在探索前進的方向。Rina則總結道,我們至今仍未完全理解大語言模型的工作原理,世界模型的研究同樣面臨這一困境。