TeleMorpher:迈向鲁棒的同步运动-位置编辑
研究者提出TeleMorpher,一种基于扩散模型的一键式框架,用于视频中同步运动与位置编辑。该方法通过分离主角与背景、利用运动先验进行姿势变形,并引入新的评估指标,实现了更可控和精确的编辑。实验表明,在真实场景视频和TaiChi数据集上,TeleMorpher在定量和定性评估中均优于现有方法。
近年来,扩散模型在图像和视频生成与编辑领域取得了显著成功,能够生成高质量、多样化的视觉内容。然而,在视频编辑中,同时调整人物的运动轨迹和空间位置——这一具有重要实际应用价值的任务——仍是一个未被充分探索的难题。为了深入理解并解决这一问题,研究团队首先系统分析了导致编辑质量下降的根本因素,例如背景与目标的耦合、运动与位置变化之间的相互干扰等。基于这些分析,他们提出了一种名为TeleMorpher的新型框架,据作者所知,这是首个能够实现同步运动与位置编辑的一键式一次性(one-shot)解决方案。
TeleMorpher的核心创新在于利用运动先验来引导编辑过程。具体来说,它首先从一个现成的视频生成模型中获取一个以目标运动为中心的视频,作为运动编辑的指导信号。同时,框架还利用真实运动信息(ground truth motion)来增强编辑的精确性。整个工作流程分为四个关键步骤:第一,通过预训练的语义分割和图像修复模型将视频中的主角与背景分离开来,确保后续编辑只作用于目标主体。第二,引入一种无需额外训练的姿势变形技术(pose warping),以运动先验为指导,对主角的动作进行编辑,从而生成符合目标运动模式的变形视频。第三,将变形后的运动视频直接注入到一个基线运动编辑器中,在推理过程中通过注入机制有效缓解源运动与目标运动之间的差异,同时最大程度地保留源视频的外观细节,如纹理、光照等。第四,为了更可靠地评估编辑效果,研究团队提出了两个基于LPIPS(Learned Perceptual Image Patch Similarity)的新指标:一个用于衡量运动编辑前后背景的一致性,另一个则通过比较源视频与目标视频中提取的主角骨架差异来评估运动编辑的保真度。
实验部分,TeleMorpher在两种类型的视频上进行了验证:一是真实场景中的“野外”视频(in-the-wild videos),二是TaiChi数据集中的太极拳视频。这些视频包含各种复杂背景、不同人物姿态和运动模式。定量评估显示,TeleMorpher在背景保持和运动编辑精度上均优于现有的基线方法;定性评估则通过真实人类评分,进一步证明了其生成结果的自然度和可控性。研究结果表明,TeleMorpher不仅能够有效处理同时改变运动与位置的任务,还为视频编辑领域提供了新的评估标准和改进方向。未来,该框架有望在影视后期制作、虚拟现实内容创作、增强现实交互等场景中发挥重要作用。