“如果世界”:面向具身场景的通用世界模型因果基准
视频生成模型越来越多地被用作世界模拟器,但现有基准仅评估单视频质量,无法检测模型是否真正理解因果关系。新提出的“如果世界”基准包含319对基于真实场景的提示对,通过改变一个物理变量来测试模型输出的因果一致性。对9个最先进模型的评测显示,最佳配对得分仅52%,开源模型约28%,且表现与视觉显著性相关而非物理可解性。
文章情报
要点
- “如果世界”基准由319个提示对组成,每个提示对仅在一个物理变量上不同,旨在检验视频生成模型能否根据物理规律产生正确的差异。
- 采用APEO评分标准(Adherence、Physics、Environment、Outcome)评估,9个模型中最高得分为52%,开源模型集中在28%左右,所有模型在大量因果干预上失败。
- 模型性能与干预的视觉显著性高度相关:视觉上微妙的干预得分低至14.2%,而视觉明显的干预可达40.4%,表明模型依赖表面特征而非物理理解。
为什么重要
这条新闻值得关注,因为“如果世界”基准由319个提示对组成,每个提示对仅在一个物理变量上不同,旨在检验视频生成模型能否根据物理规律产生正确的差异。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
视频生成模型正越来越广泛地被用作世界模拟器,应用于自动驾驶和机器人操作等关键领域。然而,在这些应用场景中,真正重要的并不是单个视频看起来多么逼真,而是当输入条件改变时,模型的输出能否相应变化。例如,如果描述同一场景的两个提示仅在某个物理细节(如障碍物的位置或物体的重量)上有所不同,那么生成的两个视频应该根据物理规律产生差异。但现有的基准测试往往只对单个视频进行评分,无法捕捉到模型虽然能生成看似合理的视频,却未能正确响应因果干预这一缺陷。
为了填补这一空白,来自加州大学伯克利分校等多所机构的研究团队提出了“如果世界”(What-If World)基准测试。该基准包含319对精心设计的提示,这些提示基于nuScenes和DROID数据集中的真实帧,并涵盖了驾驶和操作任务中常见的六类物理变量:物体位置、物体存在/缺失、物体属性(如颜色、尺寸)、物理状态(如运动、静止)、环境条件(如光照、天气)以及时间(如不同时间步的帧)。每对提示通过APEO四部分评分标准来评估:Adherence(视频是否遵循提示)、Physics(物理一致性,如物体运动是否符合重力)、Environment(共享场景的保持,即背景等不变部分是否一致)和Outcome(最终差异是否正确)。
研究团队对9个最先进的视频生成模型进行了系统性测试,结果令人警醒:没有任何一个模型的配对得分超过52%,而开源模型的得分集中在28%左右。每个测试的模型都在大量因果干预上失败,表明这些模型距离可靠支持动作条件模拟或基于模型的规划还有很大差距。例如,当提示要求“将椅子向右移动”与“将椅子向左移动”时,模型往往无法正确改变运动方向。此外,当模型得分较高时,其表现似乎与干预的视觉显著性相关,而非其潜在物理问题的可解性。一些视觉上微妙的干预(如改变物体颜色)得分低至14.2%,而视觉上明显的干预(如改变物体位置)则达到40.4%。
这一发现强调了当前视频生成模型在因果推理方面的严重不足。研究者指出,未来的模型需要更加注重理解物理规律,而不仅仅是生成视觉上逼真的视频。“如果世界”基准有望推动该领域的发展,使得世界模拟器真正具备可靠的因果推理能力。该基准的代码和数据已开源,可供研究者使用。