AI News HubLIVE
站內改寫2 分鐘閱讀

全身條件的第一人稱視頻預測

BAIR團隊提出PEVA模型,通過全身動作條件預測第一人稱視頻。該模型利用自迴歸條件擴散變換器,在Nymeria數據集上訓練,能夠模擬原子動作、長期視頻生成及視覺規劃。

來源BAIR Blog

近年來,世界模型在模擬未來結果以支持規劃和控制方面取得了顯著進展,從直觀物理到多步視頻預測,這些模型日益強大且富有表現力。然而,很少有模型專門為具身智能體設計。為了創建面向具身智能體的世界模型,我們需要一個在真實世界中行動的具身智能體。這樣的智能體擁有物理上具身的複雜動作空間,而非抽象控制信號;必須在多樣化的真實場景中行動,並具備第一人稱視角,而非審美場景和固定攝像機。

BAIR團隊提出的PEVA(從人類動作預測第一人稱視頻)正是針對這些挑戰的初步嘗試。PEVA以人體運動學姿態軌跡為條件,學習從第一人稱視角模擬物理動作如何塑造環境。該模型在Nymeria大規模數據集上訓練,該數據集配對真實世界第一人稱視頻與身體姿態捕捉數據。通過層次化評估協議,PEVA在日益困難的任務上展現了具身預測與控制能力。

核心挑戰

人類動作與視覺高度依賴上下文:相同的視角可能對應不同動作,反之亦然。人體控制具有高維度和結構化特點,全身運動涉及48個以上自由度,具有層次化的時間依賴動態。第一人稱視角雖能揭示意圖,但隱藏了身體運動,模型必須從不可見的物理動作中推斷後果。此外,視覺反饋往往滯後於動作,需要長時程預測和時間推理。

方法

PEVA採用結構化動作表示:將每個動作編碼為一個高維向量,包含全身動態和詳細關節運動,基於人體運動學樹編碼全局平移和相對關節旋轉,構成48維動作空間。運動捕捉數據通過時間戳與視頻對齊,並轉換為骨盆中心局部座標系以實現位置和方向不變性。

模型架構為自迴歸條件擴散變換器,在導航世界模型的條件擴散變換器基礎上進行了三點擴展:隨機時間跳躍(學習長短時間活動模式)、序列級訓練(對每個幀前綴施加損失)以及動作嵌入(將t時刻所有動作拼接為1D張量,為每個自適應層歸一化層提供條件)。

推理時,PEVA以過去上下文幀為條件,通過變分自編碼器編碼潛狀態並添加噪聲,再逐步去噪。為加速推理,限制注意力範圍:幀內注意力僅應用於目標幀,上下文交叉注意力僅應用於最後一幀。動作條件預測採用自迴歸展開策略:初始上下文幀與當前動作編碼後,模型預測下一幀,然後更新上下文並重復直至序列結束。

實驗結果

PEVA在多種原子動作(如手部上下左右、身體前後移動)上表現優異,能夠生成16秒長視頻並保持視覺語義一致性。定量指標顯示其在感知質量上持續優於基線模型,且具有良好的可擴展性——更大模型帶來更好性能。

在規劃能力方面,PEVA通過交叉熵方法優化動作序列,以最小化感知距離(LPIPS)。示例顯示,模型能夠找到打開冰箱或夠取架子的正確動作序列,但當前僅對手臂動作進行規劃,缺乏完整軌跡優化。

未來方向

PEVA是向具身規劃邁出的早期一步,仍需擴展至閉環控制或交互環境。模型目前缺乏對任務意圖或語義目標的顯式條件化,評估以圖像相似性為代理目標。未來工作可結合高層次目標條件化和物體中心表徵,進一步提升規劃能力。