MolmoMotion:语言引导的3D运动预测
MolmoMotion是一种新型3D运动预测模型,能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色,如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。
MolmoMotion是由艾伦人工智能研究所(Ai2)开发的一种突破性3D运动预测模型。与传统的运动感知模型不同,它能够预测物体未来的运动轨迹,而非仅仅分析已经发生的运动。该模型通过结合视频帧、物体表面3D点以及自然语言指令,预测未来数秒内物体点的3D位置变化,在多项基准测试中显著优于现有方法。
运动感知通常是回顾性的:它解释已经发生的运动。但许多实际应用需要前瞻性预测,例如机器人抓取杯子时必须预判杯子的运动,视频生成器需要知道接下来合理的运动以生成物理上合理的帧。MolmoMotion正是为解决这一挑战而设计。给定一段RGB视频、物体上的一组查询点以及动作描述(如“移动并旋转桌上的水果木碗”),模型输出这些点在接下来几秒内的3D轨迹。
MolmoMotion采用了一种高效的运动表示:物体附着在3D世界空间中的点。这种表示具有三个关键特性:类别无关(不依赖人体、手部、刚体等预设模板)、视角稳定(同一物理运动在不同摄像头和视角下保持一致)以及可直接用于下游系统(如机器人策略或视频生成模型)。稀疏的表面点集可以描述刚体、铰接物体以及有限程度内的变形运动,无需假设物体类型。
模型基于Molmo 2骨干网络,将语言指令与图像中的物体和点关联起来。给定短期视频历史、动作描述和一组带有初始3D位置的查询点,模型首先识别所指的物体和查询点,然后预测每个点的未来3D轨迹。训练了两种变体:自回归变体(MolmoMotion-AR)逐步预测未来坐标,适用于路径明确的场景;流匹配变体(MolmoMotion-FM)通过将噪声变换为运动来预测连续3D空间中的轨迹,更适合处理多条可能未来的不确定性。
为了训练和评估模型,研究团队构建了MolmoMotion-1M数据集,这是迄今为止最大的带有动作描述的物体3D点轨迹集合,包含116万视频,覆盖736种运动类型和5600种不同物体。他们开发了一个自动流水线,从非约束视频中提取物体相关的3D轨迹,包括过滤噪声、平滑轨迹和剪辑有意义运动片段。同时发布了PointMotionBench基准测试,包含2700个视频片段,覆盖111个物体类别和61种运动类型,用于量化评估3D运动预测的准确性。
实验结果表明,MolmoMotion在PointMotionBench上超越了所有现有方法,包括像素空间视频生成器、参数化3D方法和匀速基线。在下游任务中,经过微调的MolmoMotion在机器人操作任务中表现出色:在模拟环境中,基于MolmoMotion的控制策略在拾取放置任务上成功率达76.3%,而基于Molmo 2的策略仅为56.0%,且学习速度更快;在真实机器人上,MolmoMotion仅需约2000步训练即可达到Molmo 2基线在12000步后的测试L2误差。在视频生成方面,将MolmoMotion的预测轨迹输入图像到视频模型,可以显著提升运动质量,尤其在精细动作上优于更大规模的模型。
尽管性能强大,MolmoMotion仍存在一些局限性。训练时每物体仅使用8个查询点,不足以密集表示表面几何,限制了复杂变形运动的处理能力。研究团队认为,运动预测对于机器智能至关重要,MolmoMotion朝这个方向迈出了重要一步,并已开源模型权重、数据集和基准测试,供社区进一步研究和改进。