AIhub咖啡角:世界模型
本月AIhub咖啡角邀请了多位人工智能专家,围绕“世界模型”这一热门话题展开讨论。专家们探讨了世界模型的不同定义、潜在应用以及面临的挑战,包括在机器人训练、手术模拟等领域的案例,并分析了其与语言模型、因果模型等概念的异同。
在本月的AIhub咖啡角中,来自多所大学的人工智能专家齐聚一堂,深入探讨了“世界模型”这一概念。参与讨论的专家包括弗吉尼亚理工大学的Sanmay Das、加州大学尔湾分校的Rina Dechter、俄勒冈州立大学的Tom Dietterich、布里斯托大学的Sabine Hauert、布朗大学的Michael Littman以及卑尔根大学的Marija Slavkovik。
讨论由Sabine Hauert的观察开始:世界模型近期备受关注,并有大量资金投入。她提到,英伟达在布里斯托机器人实验室的一次培训中展示了其最新工具,其中包括用于生成模拟环境的世界模型,可用于训练机器人策略。她对此产生浓厚兴趣,但同时也质疑:这是否仅仅是将语言处理扩展到视频,并假装具有物理属性,还是真的能够生成对机器人直接有用的环境?
Michael Littman随后为世界模型提供了更传统的定义:在强化学习中,世界模型通常被称为转移模型,用于描述在给定世界状态和动作后,下一状态的概率分布。有了好的世界模型,就可以在现实世界之外进行决策规划。他举了一个例子:设想将一块巧克力扔向摄像头,我们可以利用模型提前推理,避免做出糟糕的决定。
然而,Littman也指出,从视频中学习世界模型是更困难的任务,因为它需要从未完全观测到的状态中预测未来。如果训练大量视频,可能得到类似于视频生成器的结果。而Yann LeCun的新公司AMI则声称其核心是世界模型,但并非视频生成器,而是用于化工等领域的数字孪生。
Tom Dietterich补充说,这种应用与数字孪生相似,但验证模型仍是一大挑战。例如,自动驾驶公司比如Waymo和Waabi会构建此类模型来模拟致命碰撞,但如何验证这些模型在非常规状态下的泛化能力尚不明确。
Sanmay Das提出了一个观点:自然语言处理领域的发展表明,无需真正理解语言属性就能构建有效的语言模型。类似地,世界模型可能只是另一种时间序列预测任务,而非真正具有物理或动力学的模型。Rina Dechter则引入了因果模型的概念,认为世界模型应能回答因果和反事实问题,这与单纯的转移模型有所不同。
Marija Slavkovik将讨论引向实际数据集,她以Niantic利用《宝可梦GO》收集数据构建世界模型为例,质疑这种模型与“世界模型”的本质区别。
Sabine再次回到英伟达的例子,展示了手术中末端执行器与软组织交互的视频。通过世界模型训练,可以生成大量这类复杂交互的实例,尽管模型仍不完美,出现末端执行器漂浮等错误。她认为这种窄领域的应用才是真正有价值的地方,不应过分夸大术语。
Sanmay回应说,语言模型的发展出乎意料地成功,尽管最初只是递归地预测下一个词。也许世界模型也能通过逐步视频预测,最终实现从视频中推导出复杂的动作序列,但他对此持怀疑态度。Tom指出,语言没有部分可观测性问题,而机器人操作中缺乏触觉信息,使得推断物理特性变得极具挑战。
最后,Sabine提到一些公司正在收集工人手腕的运动数据来训练机器人手臂,但所需数据量巨大,与语言领域的成功模式难以兼容。她认为机器人社区仍在探索前进的方向。Rina则总结道,我们至今仍未完全理解大语言模型的工作原理,世界模型的研究同样面临这一困境。