2026-06-17站内改写2 分钟阅读更新: 2026-06-17

MolmoMotion：语言引导的3D运动预测

MolmoMotion是一种新型3D运动预测模型，能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色，如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。

来源Hugging Face Blog

MolmoMotion是由艾伦人工智能研究所（Ai2）开发的一种突破性3D运动预测模型。与传统的运动感知模型不同，它能够预测物体未来的运动轨迹，而非仅仅分析已经发生的运动。该模型通过结合视频帧、物体表面3D点以及自然语言指令，预测未来数秒内物体点的3D位置变化，在多项基准测试中显著优于现有方法。

运动感知通常是回顾性的：它解释已经发生的运动。但许多实际应用需要前瞻性预测，例如机器人抓取杯子时必须预判杯子的运动，视频生成器需要知道接下来合理的运动以生成物理上合理的帧。MolmoMotion正是为解决这一挑战而设计。给定一段RGB视频、物体上的一组查询点以及动作描述（如“移动并旋转桌上的水果木碗”），模型输出这些点在接下来几秒内的3D轨迹。

MolmoMotion采用了一种高效的运动表示：物体附着在3D世界空间中的点。这种表示具有三个关键特性：类别无关（不依赖人体、手部、刚体等预设模板）、视角稳定（同一物理运动在不同摄像头和视角下保持一致）以及可直接用于下游系统（如机器人策略或视频生成模型）。稀疏的表面点集可以描述刚体、铰接物体以及有限程度内的变形运动，无需假设物体类型。

模型基于Molmo 2骨干网络，将语言指令与图像中的物体和点关联起来。给定短期视频历史、动作描述和一组带有初始3D位置的查询点，模型首先识别所指的物体和查询点，然后预测每个点的未来3D轨迹。训练了两种变体：自回归变体（MolmoMotion-AR）逐步预测未来坐标，适用于路径明确的场景；流匹配变体（MolmoMotion-FM）通过将噪声变换为运动来预测连续3D空间中的轨迹，更适合处理多条可能未来的不确定性。

为了训练和评估模型，研究团队构建了MolmoMotion-1M数据集，这是迄今为止最大的带有动作描述的物体3D点轨迹集合，包含116万视频，覆盖736种运动类型和5600种不同物体。他们开发了一个自动流水线，从非约束视频中提取物体相关的3D轨迹，包括过滤噪声、平滑轨迹和剪辑有意义运动片段。同时发布了PointMotionBench基准测试，包含2700个视频片段，覆盖111个物体类别和61种运动类型，用于量化评估3D运动预测的准确性。

实验结果表明，MolmoMotion在PointMotionBench上超越了所有现有方法，包括像素空间视频生成器、参数化3D方法和匀速基线。在下游任务中，经过微调的MolmoMotion在机器人操作任务中表现出色：在模拟环境中，基于MolmoMotion的控制策略在拾取放置任务上成功率达76.3%，而基于Molmo 2的策略仅为56.0%，且学习速度更快；在真实机器人上，MolmoMotion仅需约2000步训练即可达到Molmo 2基线在12000步后的测试L2误差。在视频生成方面，将MolmoMotion的预测轨迹输入图像到视频模型，可以显著提升运动质量，尤其在精细动作上优于更大规模的模型。

尽管性能强大，MolmoMotion仍存在一些局限性。训练时每物体仅使用8个查询点，不足以密集表示表面几何，限制了复杂变形运动的处理能力。研究团队认为，运动预测对于机器智能至关重要，MolmoMotion朝这个方向迈出了重要一步，并已开源模型权重、数据集和基准测试，供社区进一步研究和改进。