TeleMorpher:邁向魯棒的同步運動-位置編輯
研究者提出TeleMorpher,一種基於擴散模型的一鍵式框架,用於視頻中同步運動與位置編輯。該方法通過分離主角與背景、利用運動先驗進行姿勢變形,並引入新的評估指標,實現了更可控和精確的編輯。實驗表明,在真實場景視頻和TaiChi數據集上,TeleMorpher在定量和定性評估中均優於現有方法。
近年來,擴散模型在圖像和視頻生成與編輯領域取得了顯著成功,能夠生成高質量、多樣化的視覺內容。然而,在視頻編輯中,同時調整人物的運動軌跡和空間位置——這一具有重要實際應用價值的任務——仍是一個未被充分探索的難題。為了深入理解並解決這一問題,研究團隊首先系統分析了導致編輯質量下降的根本因素,例如背景與目標的耦合、運動與位置變化之間的相互干擾等。基於這些分析,他們提出了一種名為TeleMorpher的新型框架,據作者所知,這是首個能夠實現同步運動與位置編輯的一鍵式一次性(one-shot)解決方案。
TeleMorpher的核心創新在於利用運動先驗來引導編輯過程。具體來説,它首先從一個現成的視頻生成模型中獲取一個以目標運動為中心的視頻,作為運動編輯的指導信號。同時,框架還利用真實運動信息(ground truth motion)來增強編輯的精確性。整個工作流程分為四個關鍵步驟:第一,通過預訓練的語義分割和圖像修復模型將視頻中的主角與背景分離開來,確保後續編輯只作用於目標主體。第二,引入一種無需額外訓練的姿勢變形技術(pose warping),以運動先驗為指導,對主角的動作進行編輯,從而生成符合目標運動模式的變形視頻。第三,將變形後的運動視頻直接注入到一個基線運動編輯器中,在推理過程中通過注入機制有效緩解源運動與目標運動之間的差異,同時最大程度地保留源視頻的外觀細節,如紋理、光照等。第四,為了更可靠地評估編輯效果,研究團隊提出了兩個基於LPIPS(Learned Perceptual Image Patch Similarity)的新指標:一個用於衡量運動編輯前後背景的一致性,另一個則通過比較源視頻與目標視頻中提取的主角骨架差異來評估運動編輯的保真度。
實驗部分,TeleMorpher在兩種類型的視頻上進行了驗證:一是真實場景中的“野外”視頻(in-the-wild videos),二是TaiChi數據集中的太極拳視頻。這些視頻包含各種複雜背景、不同人物姿態和運動模式。定量評估顯示,TeleMorpher在背景保持和運動編輯精度上均優於現有的基線方法;定性評估則通過真實人類評分,進一步證明了其生成結果的自然度和可控性。研究結果表明,TeleMorpher不僅能夠有效處理同時改變運動與位置的任務,還為視頻編輯領域提供了新的評估標準和改進方向。未來,該框架有望在影視後期製作、虛擬現實內容創作、增強現實交互等場景中發揮重要作用。