2025-07-01 17:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

全身條件的第一人稱視頻預測

BAIR團隊提出PEVA模型，通過全身動作條件預測第一人稱視頻。該模型利用自迴歸條件擴散變換器，在Nymeria數據集上訓練，能夠模擬原子動作、長期視頻生成及視覺規劃。

近年來，世界模型在模擬未來結果以支持規劃和控制方面取得了顯著進展，從直觀物理到多步視頻預測，這些模型日益強大且富有表現力。然而，很少有模型專門為具身智能體設計。為了創建面向具身智能體的世界模型，我們需要一個在真實世界中行動的具身智能體。這樣的智能體擁有物理上具身的複雜動作空間，而非抽象控制信號；必須在多樣化的真實場景中行動，並具備第一人稱視角，而非審美場景和固定攝像機。

BAIR團隊提出的PEVA（從人類動作預測第一人稱視頻）正是針對這些挑戰的初步嘗試。PEVA以人體運動學姿態軌跡為條件，學習從第一人稱視角模擬物理動作如何塑造環境。該模型在Nymeria大規模數據集上訓練，該數據集配對真實世界第一人稱視頻與身體姿態捕捉數據。通過層次化評估協議，PEVA在日益困難的任務上展現了具身預測與控制能力。

核心挑戰

人類動作與視覺高度依賴上下文：相同的視角可能對應不同動作，反之亦然。人體控制具有高維度和結構化特點，全身運動涉及48個以上自由度，具有層次化的時間依賴動態。第一人稱視角雖能揭示意圖，但隱藏了身體運動，模型必須從不可見的物理動作中推斷後果。此外，視覺反饋往往滯後於動作，需要長時程預測和時間推理。

方法

PEVA採用結構化動作表示：將每個動作編碼為一個高維向量，包含全身動態和詳細關節運動，基於人體運動學樹編碼全局平移和相對關節旋轉，構成48維動作空間。運動捕捉數據通過時間戳與視頻對齊，並轉換為骨盆中心局部座標系以實現位置和方向不變性。

模型架構為自迴歸條件擴散變換器，在導航世界模型的條件擴散變換器基礎上進行了三點擴展：隨機時間跳躍（學習長短時間活動模式）、序列級訓練（對每個幀前綴施加損失）以及動作嵌入（將t時刻所有動作拼接為1D張量，為每個自適應層歸一化層提供條件）。

推理時，PEVA以過去上下文幀為條件，通過變分自編碼器編碼潛狀態並添加噪聲，再逐步去噪。為加速推理，限制注意力範圍：幀內注意力僅應用於目標幀，上下文交叉注意力僅應用於最後一幀。動作條件預測採用自迴歸展開策略：初始上下文幀與當前動作編碼後，模型預測下一幀，然後更新上下文並重復直至序列結束。

實驗結果

PEVA在多種原子動作（如手部上下左右、身體前後移動）上表現優異，能夠生成16秒長視頻並保持視覺語義一致性。定量指標顯示其在感知質量上持續優於基線模型，且具有良好的可擴展性——更大模型帶來更好性能。

在規劃能力方面，PEVA通過交叉熵方法優化動作序列，以最小化感知距離（LPIPS）。示例顯示，模型能夠找到打開冰箱或夠取架子的正確動作序列，但當前僅對手臂動作進行規劃，缺乏完整軌跡優化。

未來方向

PEVA是向具身規劃邁出的早期一步，仍需擴展至閉環控制或交互環境。模型目前缺乏對任務意圖或語義目標的顯式條件化，評估以圖像相似性為代理目標。未來工作可結合高層次目標條件化和物體中心表徵，進一步提升規劃能力。