2025-07-01 17:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

全身条件的第一人称视频预测

BAIR团队提出PEVA模型，通过全身动作条件预测第一人称视频。该模型利用自回归条件扩散变换器，在Nymeria数据集上训练，能够模拟原子动作、长期视频生成及视觉规划。

近年来，世界模型在模拟未来结果以支持规划和控制方面取得了显著进展，从直观物理到多步视频预测，这些模型日益强大且富有表现力。然而，很少有模型专门为具身智能体设计。为了创建面向具身智能体的世界模型，我们需要一个在真实世界中行动的具身智能体。这样的智能体拥有物理上具身的复杂动作空间，而非抽象控制信号；必须在多样化的真实场景中行动，并具备第一人称视角，而非审美场景和固定摄像机。

BAIR团队提出的PEVA（从人类动作预测第一人称视频）正是针对这些挑战的初步尝试。PEVA以人体运动学姿态轨迹为条件，学习从第一人称视角模拟物理动作如何塑造环境。该模型在Nymeria大规模数据集上训练，该数据集配对真实世界第一人称视频与身体姿态捕捉数据。通过层次化评估协议，PEVA在日益困难的任务上展现了具身预测与控制能力。

核心挑战

人类动作与视觉高度依赖上下文：相同的视角可能对应不同动作，反之亦然。人体控制具有高维度和结构化特点，全身运动涉及48个以上自由度，具有层次化的时间依赖动态。第一人称视角虽能揭示意图，但隐藏了身体运动，模型必须从不可见的物理动作中推断后果。此外，视觉反馈往往滞后于动作，需要长时程预测和时间推理。

方法

PEVA采用结构化动作表示：将每个动作编码为一个高维向量，包含全身动态和详细关节运动，基于人体运动学树编码全局平移和相对关节旋转，构成48维动作空间。运动捕捉数据通过时间戳与视频对齐，并转换为骨盆中心局部坐标系以实现位置和方向不变性。

模型架构为自回归条件扩散变换器，在导航世界模型的条件扩散变换器基础上进行了三点扩展：随机时间跳跃（学习长短时间活动模式）、序列级训练（对每个帧前缀施加损失）以及动作嵌入（将t时刻所有动作拼接为1D张量，为每个自适应层归一化层提供条件）。

推理时，PEVA以过去上下文帧为条件，通过变分自编码器编码潜状态并添加噪声，再逐步去噪。为加速推理，限制注意力范围：帧内注意力仅应用于目标帧，上下文交叉注意力仅应用于最后一帧。动作条件预测采用自回归展开策略：初始上下文帧与当前动作编码后，模型预测下一帧，然后更新上下文并重复直至序列结束。

实验结果

PEVA在多种原子动作（如手部上下左右、身体前后移动）上表现优异，能够生成16秒长视频并保持视觉语义一致性。定量指标显示其在感知质量上持续优于基线模型，且具有良好的可扩展性——更大模型带来更好性能。

在规划能力方面，PEVA通过交叉熵方法优化动作序列，以最小化感知距离（LPIPS）。示例显示，模型能够找到打开冰箱或够取架子的正确动作序列，但当前仅对手臂动作进行规划，缺乏完整轨迹优化。

未来方向

PEVA是向具身规划迈出的早期一步，仍需扩展至闭环控制或交互环境。模型目前缺乏对任务意图或语义目标的显式条件化，评估以图像相似性为代理目标。未来工作可结合高层次目标条件化和物体中心表征，进一步提升规划能力。