全身條件的第一人稱影片預測
BAIR團隊提出PEVA模型,透過全身動作條件預測第一人稱影片。該模型利用自迴歸條件擴散變換器,在Nymeria資料集上訓練,能夠模擬原子動作、長期影片生成及視覺規劃。
近年來,世界模型在模擬未來結果以支援規劃和控制方面取得了顯著進展,從直觀物理到多步影片預測,這些模型日益強大且富有表現力。然而,很少有模型專門為具身智慧體設計。為了建立面向具身智慧體的世界模型,我們需要一個在真實世界中行動的具身智慧體。這樣的智慧體擁有物理上具身的複雜動作空間,而非抽象控制訊號;必須在多樣化的真實場景中行動,並具備第一人稱視角,而非審美場景和固定攝像機。
BAIR團隊提出的PEVA(從人類動作預測第一人稱影片)正是針對這些挑戰的初步嘗試。PEVA以人體運動學姿態軌跡為條件,學習從第一人稱視角模擬物理動作如何塑造環境。該模型在Nymeria大規模資料集上訓練,該資料集配對真實世界第一人稱影片與身體姿態捕捉資料。透過層次化評估協議,PEVA在日益困難的任務上展現了具身預測與控制能力。
核心挑戰
人類動作與視覺高度依賴上下文:相同的視角可能對應不同動作,反之亦然。人體控制具有高維度和結構化特點,全身運動涉及48個以上自由度,具有層次化的時間依賴動態。第一人稱視角雖能揭示意圖,但隱藏了身體運動,模型必須從不可見的物理動作中推斷後果。此外,視覺反饋往往滯後於動作,需要長時程預測和時間推理。
方法
PEVA採用結構化動作表示:將每個動作編碼為一個高維向量,包含全身動態和詳細關節運動,基於人體運動學樹編碼全域性平移和相對關節旋轉,構成48維動作空間。運動捕捉資料透過時間戳與影片對齊,並轉換為骨盆中心區域性座標系以實現位置和方向不變性。
模型架構為自迴歸條件擴散變換器,在導航世界模型的條件擴散變換器基礎上進行了三點擴充套件:隨機時間跳躍(學習長短時間活動模式)、序列級訓練(對每個幀字首施加損失)以及動作嵌入(將t時刻所有動作拼接為1D張量,為每個自適應層歸一化層提供條件)。
推理時,PEVA以過去上下文幀為條件,透過變分自編碼器編碼潛狀態並新增噪聲,再逐步去噪。為加速推理,限制注意力範圍:幀內注意力僅應用於目標幀,上下文交叉注意力僅應用於最後一幀。動作條件預測採用自迴歸展開策略:初始上下文幀與當前動作編碼後,模型預測下一幀,然後更新上下文並重復直至序列結束。
實驗結果
PEVA在多種原子動作(如手部上下左右、身體前後移動)上表現優異,能夠生成16秒長影片並保持視覺語義一致性。定量指標顯示其在感知質量上持續優於基線模型,且具有良好的可擴充套件性——更大模型帶來更好效能。
在規劃能力方面,PEVA透過交叉熵方法最佳化動作序列,以最小化感知距離(LPIPS)。示例顯示,模型能夠找到開啟冰箱或夠取架子的正確動作序列,但當前僅對手臂動作進行規劃,缺乏完整軌跡最佳化。
未來方向
PEVA是向具身規劃邁出的早期一步,仍需擴充套件至閉環控制或互動環境。模型目前缺乏對任務意圖或語義目標的顯式條件化,評估以影像相似性為代理目標。未來工作可結合高層次目標條件化和物體中心表徵,進一步提升規劃能力。