2026-05-22 18:49 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

AIhub咖啡角：世界模型

本月AIhub咖啡角邀请了多位人工智能专家，围绕“世界模型”这一热门话题展开讨论。专家们探讨了世界模型的不同定义、潜在应用以及面临的挑战，包括在机器人训练、手术模拟等领域的案例，并分析了其与语言模型、因果模型等概念的异同。

来源AIhub作者: AIhub

在本月的AIhub咖啡角中，来自多所大学的人工智能专家齐聚一堂，深入探讨了“世界模型”这一概念。参与讨论的专家包括弗吉尼亚理工大学的Sanmay Das、加州大学尔湾分校的Rina Dechter、俄勒冈州立大学的Tom Dietterich、布里斯托大学的Sabine Hauert、布朗大学的Michael Littman以及卑尔根大学的Marija Slavkovik。

讨论由Sabine Hauert的观察开始：世界模型近期备受关注，并有大量资金投入。她提到，英伟达在布里斯托机器人实验室的一次培训中展示了其最新工具，其中包括用于生成模拟环境的世界模型，可用于训练机器人策略。她对此产生浓厚兴趣，但同时也质疑：这是否仅仅是将语言处理扩展到视频，并假装具有物理属性，还是真的能够生成对机器人直接有用的环境？

Michael Littman随后为世界模型提供了更传统的定义：在强化学习中，世界模型通常被称为转移模型，用于描述在给定世界状态和动作后，下一状态的概率分布。有了好的世界模型，就可以在现实世界之外进行决策规划。他举了一个例子：设想将一块巧克力扔向摄像头，我们可以利用模型提前推理，避免做出糟糕的决定。

然而，Littman也指出，从视频中学习世界模型是更困难的任务，因为它需要从未完全观测到的状态中预测未来。如果训练大量视频，可能得到类似于视频生成器的结果。而Yann LeCun的新公司AMI则声称其核心是世界模型，但并非视频生成器，而是用于化工等领域的数字孪生。

Tom Dietterich补充说，这种应用与数字孪生相似，但验证模型仍是一大挑战。例如，自动驾驶公司比如Waymo和Waabi会构建此类模型来模拟致命碰撞，但如何验证这些模型在非常规状态下的泛化能力尚不明确。

Sanmay Das提出了一个观点：自然语言处理领域的发展表明，无需真正理解语言属性就能构建有效的语言模型。类似地，世界模型可能只是另一种时间序列预测任务，而非真正具有物理或动力学的模型。Rina Dechter则引入了因果模型的概念，认为世界模型应能回答因果和反事实问题，这与单纯的转移模型有所不同。

Marija Slavkovik将讨论引向实际数据集，她以Niantic利用《宝可梦GO》收集数据构建世界模型为例，质疑这种模型与“世界模型”的本质区别。

Sabine再次回到英伟达的例子，展示了手术中末端执行器与软组织交互的视频。通过世界模型训练，可以生成大量这类复杂交互的实例，尽管模型仍不完美，出现末端执行器漂浮等错误。她认为这种窄领域的应用才是真正有价值的地方，不应过分夸大术语。

Sanmay回应说，语言模型的发展出乎意料地成功，尽管最初只是递归地预测下一个词。也许世界模型也能通过逐步视频预测，最终实现从视频中推导出复杂的动作序列，但他对此持怀疑态度。Tom指出，语言没有部分可观测性问题，而机器人操作中缺乏触觉信息，使得推断物理特性变得极具挑战。

最后，Sabine提到一些公司正在收集工人手腕的运动数据来训练机器人手臂，但所需数据量巨大，与语言领域的成功模式难以兼容。她认为机器人社区仍在探索前进的方向。Rina则总结道，我们至今仍未完全理解大语言模型的工作原理，世界模型的研究同样面临这一困境。