AI News HubLIVE
站内改写1 分鐘閱讀

LooseControlVideo:使用空間模塊化實現導演級視頻控制

LooseControlVideo是一種新穎的框架,通過稀疏定向3D框作為“模塊化”代理,實現直觀且富有表現力的文本到視頻生成控制。該方法在Wan 2.2骨幹網絡上微調,使用DNOCS編碼處理3D尺寸、方向和深度排序遮擋,支持局部細化而不破壞全局場景。在nuScenes、HO-3D和BEHAVE基準測試中,它在軌跡誤差、剛體運動一致性和遮擋準確率上顯著優於現有方法。

來源arXiv Computer Vision作者: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本到視頻生成領域,精確的3D空間編排仍然是一個重大挑戰,尤其是在涉及多個物體的場景中,語義佈局和時間動態常常糾纏不清。現有的深度條件模型雖然能夠實現良好的結構保真度,但它們需要密集且逐幀精確的指導,這對於包含可變形物體的動態事件來説,製作起來非常耗時。針對這一問題,來自研究團隊的Shariq Farooq Bhat等人提出了LooseControlVideo框架,這是一種能夠通過稀疏、定向的3D框作為“模塊化”代理,實現直觀且富有表現力的視頻控制的新方法。

LooseControlVideo的核心創新在於使用稀疏的3D框來替代傳統的密集深度圖或2D框,從而允許用户僅通過定義高層佈局和軌跡來指導視頻生成,而視頻生成模型則負責生成逼真的遮擋、動態和交互。研究團隊通過在Wan 2.2骨幹網絡上進行微調,並使用DNOCS編碼(一種用於3D尺寸、方向和深度排序遮擋的新型編碼)來訓練模型,使其能夠理解並利用這些3D框。此外,該方法還支持局部細化,例如調整一個跳躍軌跡或添加一個交互,而不會對全局場景造成過多幹擾。

在實驗部分,研究團隊在nuScenes、HO-3D和BEHAVE基準上進行了廣泛評估,結果顯示LooseControlVideo顯著優於現有的基於2D框和光流的基線方法。具體而言,在軌跡誤差上取得了1.2到3倍的改進,剛體運動一致性提高了2倍,遮擋準確率提升了1.5到2倍。這些結果表明,定向3D基元為複雜的多智能體視頻創作提供了良好的幾何先驗。

LooseControlVideo的提出為視頻生成中的空間控制開闢了新的可能性,使得用户能夠更直觀地編排複雜的動態場景,而無需處理繁瑣的逐幀標註。該框架不僅提高了生成的靈活性和表現力,還保持了較高的結構保真度,有望在電影製作、遊戲開發和虛擬現實等領域得到廣泛應用。