全身条件的第一人称视频预测
BAIR团队提出PEVA模型,通过全身动作条件预测第一人称视频。该模型利用自回归条件扩散变换器,在Nymeria数据集上训练,能够模拟原子动作、长期视频生成及视觉规划。
近年来,世界模型在模拟未来结果以支持规划和控制方面取得了显著进展,从直观物理到多步视频预测,这些模型日益强大且富有表现力。然而,很少有模型专门为具身智能体设计。为了创建面向具身智能体的世界模型,我们需要一个在真实世界中行动的具身智能体。这样的智能体拥有物理上具身的复杂动作空间,而非抽象控制信号;必须在多样化的真实场景中行动,并具备第一人称视角,而非审美场景和固定摄像机。
BAIR团队提出的PEVA(从人类动作预测第一人称视频)正是针对这些挑战的初步尝试。PEVA以人体运动学姿态轨迹为条件,学习从第一人称视角模拟物理动作如何塑造环境。该模型在Nymeria大规模数据集上训练,该数据集配对真实世界第一人称视频与身体姿态捕捉数据。通过层次化评估协议,PEVA在日益困难的任务上展现了具身预测与控制能力。
核心挑战
人类动作与视觉高度依赖上下文:相同的视角可能对应不同动作,反之亦然。人体控制具有高维度和结构化特点,全身运动涉及48个以上自由度,具有层次化的时间依赖动态。第一人称视角虽能揭示意图,但隐藏了身体运动,模型必须从不可见的物理动作中推断后果。此外,视觉反馈往往滞后于动作,需要长时程预测和时间推理。
方法
PEVA采用结构化动作表示:将每个动作编码为一个高维向量,包含全身动态和详细关节运动,基于人体运动学树编码全局平移和相对关节旋转,构成48维动作空间。运动捕捉数据通过时间戳与视频对齐,并转换为骨盆中心局部坐标系以实现位置和方向不变性。
模型架构为自回归条件扩散变换器,在导航世界模型的条件扩散变换器基础上进行了三点扩展:随机时间跳跃(学习长短时间活动模式)、序列级训练(对每个帧前缀施加损失)以及动作嵌入(将t时刻所有动作拼接为1D张量,为每个自适应层归一化层提供条件)。
推理时,PEVA以过去上下文帧为条件,通过变分自编码器编码潜状态并添加噪声,再逐步去噪。为加速推理,限制注意力范围:帧内注意力仅应用于目标帧,上下文交叉注意力仅应用于最后一帧。动作条件预测采用自回归展开策略:初始上下文帧与当前动作编码后,模型预测下一帧,然后更新上下文并重复直至序列结束。
实验结果
PEVA在多种原子动作(如手部上下左右、身体前后移动)上表现优异,能够生成16秒长视频并保持视觉语义一致性。定量指标显示其在感知质量上持续优于基线模型,且具有良好的可扩展性——更大模型带来更好性能。
在规划能力方面,PEVA通过交叉熵方法优化动作序列,以最小化感知距离(LPIPS)。示例显示,模型能够找到打开冰箱或够取架子的正确动作序列,但当前仅对手臂动作进行规划,缺乏完整轨迹优化。
未来方向
PEVA是向具身规划迈出的早期一步,仍需扩展至闭环控制或交互环境。模型目前缺乏对任务意图或语义目标的显式条件化,评估以图像相似性为代理目标。未来工作可结合高层次目标条件化和物体中心表征,进一步提升规划能力。