TeleMorpher: ロバストな同時動作・位置編集を目指して
研究者は拡散モデルを用いたビデオの同時動作・位置編集のためのワンショットフレームワークTeleMorpherを提案する。この手法は主人公と背景を分離し、動作事前分布を用いたポーズワーピングと新しい評価指標を導入する。実験では、実世界のビデオとTaiChiデータセットで優れた性能を示した。
近年、拡散モデルは画像・ビデオ生成および編集において顕著な成功を収め、高品質で多様なビジュアルコンテンツの生成が可能になっている。しかし、ビデオ編集において人物の動作と位置を同時に変更するタスクは、その実用的な重要性にもかかわらず、ほとんど未開拓のままである。この問題に取り組むため、研究チームはまず編集品質を低下させる根本要因を体系的に分析した。例えば、背景と対象の結合、動作と位置変化の相互干渉などが特定された。この分析に基づき、彼らはTeleMorpherを提案する。これは、著者の知る限り、同時動作・位置編集を実現する初めてのワンショットフレームワークである。
TeleMorpherの核心は、動作事前分布(motion prior)を編集のガイダンスとして活用することにある。具体的には、既製のビデオ生成モデルから目標動作中心のビデオを生成し、これを編集の指針とする。さらに、真値動作(ground truth motion)も利用することで編集精度を高める。フレームワークは以下の4つのステップで動作する:(1) 事前学習済みのセグメンテーションモデルとインペインティングモデルを用いて、主人公と背景を分離する。(2) 訓練不要のポーズワーピング技術を導入し、動作事前分布をガイドとして主人公の動作を編集する。(3) ワーピングされた動作ビデオをベースラインの動作編集器に直接注入し、ソースとターゲットの動作差を緩和するとともに、ソースビデオの外観(テクスチャ、照明など)を保持する。(4) 定量的評価の信頼性を向上させるため、LPIPS(Learned Perceptual Image Patch Similarity)に基づく2つの新しい指標を提案する。一つは動作編集前後の背景一貫性を測定し、もう一つはソースとターゲットビデオから抽出した主人公の骨格の差を測定することで動作編集の忠実度を評価する。
実験では、実際のシーンを捉えた「in-the-wild」ビデオとTaiChiデータセット(太極拳のビデオ)の2種類を用いた。これらのビデオは複雑な背景、様々な人物の姿勢や動作を含む。定量的評価では、TeleMorpherが背景保持と動作編集精度において既存手法を上回ることが示された。定性的評価では、実際の人間による評価を実施し、生成結果の自然さと制御可能性が確認された。研究成果は、TeleMorpherが動作と位置を同時に変更するタスクを効果的に処理できることを示すとともに、ビデオ編集分野における新たな評価基準と改善の方向性を提供する。今後、このフレームワークは映画のポストプロダクション、仮想現実コンテンツ制作、拡張現実インタラクションなどのシーンで重要な役割を果たすことが期待される。