AI News HubLIVE
サイト内リライト3 分で読了

全身条件付けされた自己中心ビデオ予測

BAIRチームは、全身動作を条件として自己中心ビデオを予測するPEVAモデルを提案。自己回帰条件付き拡散トランスフォーマーをNymeriaデータセットで学習し、原子動作、長期ビデオ生成、視覚的計画を実現する。

ソースBAIR Blog

近年、世界モデルは計画と制御のための将来の結果をシミュレートする能力において大きな進歩を遂げてきました。直感的物理から多段階ビデオ予測まで、これらのモデルはますます強力で表現力豊かになっています。しかし、真の身体化エージェント向けに設計されたものはほとんどありません。身体化エージェントのための世界モデルを構築するには、現実世界で活動する実際の身体化エージェントが必要です。そのようなエージェントは、抽象的な制御信号ではなく物理的に基づいた複雑な行動空間を持ち、多様な実生活シナリオで行動し、美的シーンや固定カメラではなく自己中心的な視点を持つ必要があります。

BAIRチームが提案するPEVA(人間の行動から自己中心ビデオを予測)は、これらの課題に取り組む初期の試みです。PEVAは身体の関節階層によって構造化された運動学的姿勢軌跡を条件とし、物理的な人間の行動がどのように環境を形成するかを一人称視点からシミュレートすることを学習します。このモデルは、現実世界の自己中心ビデオと身体姿勢キャプチャを組み合わせた大規模データセットNymeriaで訓練された自己回帰条件付き拡散トランスフォーマーです。階層的評価プロトコルにより、PEVAはますます困難なタスクにおいて身体化予測と制御能力を実証しています。

主な課題

行動と視覚は文脈に強く依存します。同じ視点が異なる動きにつながる可能性があり、その逆も同様です。人間の制御は高次元で構造化されており、全身運動は48自由度以上に及び、階層的で時間依存のダイナミクスを持ちます。自己中心視点は意図を明らかにしますが、身体を隠し、モデルは目に見えない物理的行動から結果を推測する必要があります。さらに、視覚フィードバックは行動より遅れて到着することが多く、長期的予測と時間的推論が必要です。

手法

PEVAは構造化行動表現を採用しています。各行動は、全身ダイナミクスと詳細な関節運動を捉える高次元ベクトルとして表現され、身体の運動学的ツリーに基づいて並進と相対関節回転をエンコードし、48次元の行動空間を形成します。モーションキャプチャデータはタイムスタンプでビデオと位置合わせされ、位置と向きの不変性のために骨盤中心の局所フレームに変換されます。

モデルアーキテクチャは自己回帰条件付き拡散トランスフォーマーで、ナビゲーション世界モデルの条件付き拡散トランスフォーマーを3つの方法で拡張しています:ランダムタイムスキップ(短期および長期の活動パターンを学習)、シーケンスレベル訓練(各フレームプレフィックスに損失を適用)、行動埋め込み(時刻tのすべての行動を1次元テンソルに連結し、各適応層正規化層を条件付け)。

推論時には、過去のコンテキストフレームから未来フレームを生成します。フレームを潜在状態にエンコードし、ターゲットフレームにノイズを加えた後、拡散モデルで段階的にノイズ除去します。注意範囲を制限して推論を高速化し、行動条件付き予測では自己回帰ロールアウト戦略を使用します。

実験結果

PEVAは原子動作(手の上下左右、全身の前進・回転など)の生成において優れた性能を示し、16秒の長期的ロールアウトでも視覚的および意味的整合性を維持します。定量的指標では知覚品質でベースラインを一貫して上回り、モデルサイズのスケーリングに伴う性能向上も確認されました。

計画能力に関しては、PEVAはクロスエントロピー法を用いて行動シーケンスを最適化し、知覚距離(LPIPS)を最小化します。例では、冷蔵庫を開けたり棚に手を伸ばす正しい行動シーケンスを見つけることができますが、現状では腕の行動のみを計画し、完全な軌道最適化は欠けています。

今後の方向性

PEVAは身体化計画への初期ステップであり、閉ループ制御やインタラクティブ環境への拡張が重要です。モデルは現在、タスクの意図や意味的目標の明示的条件付けを欠いており、評価は画像類似性を代理目的としています。将来の研究では、高レベル目標条件付けやオブジェクト中心表現の統合により計画能力をさらに向上させることが期待されます。