AI News HubLIVE
站内改写1 分鐘閱讀

LooseControlVideo:使用空間模組化實現導演級影片控制

LooseControlVideo是一種新穎的框架,透過稀疏定向3D框作為“模組化”代理,實現直觀且富有表現力的文本到影片生成控制。該方法在Wan 2.2骨幹網路上微調,使用DNOCS編碼處理3D尺寸、方向和深度排序遮擋,支援區域性細化而不破壞全域性場景。在nuScenes、HO-3D和BEHAVE基準測試中,它在軌跡誤差、剛體運動一致性和遮擋準確率上顯著優於現有方法。

來源arXiv Computer Vision作者: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本到影片生成領域,精確的3D空間編排仍然是一個重大挑戰,尤其是在涉及多個物體的場景中,語義佈局和時間動態常常糾纏不清。現有的深度條件模型雖然能夠實現良好的結構保真度,但它們需要密集且逐幀精確的指導,這對於包含可變形物體的動態事件來說,製作起來非常耗時。針對這一問題,來自研究團隊的Shariq Farooq Bhat等人提出了LooseControlVideo框架,這是一種能夠透過稀疏、定向的3D框作為“模組化”代理,實現直觀且富有表現力的影片控制的新方法。

LooseControlVideo的核心創新在於使用稀疏的3D框來替代傳統的密集深度圖或2D框,從而允許使用者僅透過定義高層佈局和軌跡來指導影片生成,而影片生成模型則負責生成逼真的遮擋、動態和互動。研究團隊透過在Wan 2.2骨幹網路上進行微調,並使用DNOCS編碼(一種用於3D尺寸、方向和深度排序遮擋的新型編碼)來訓練模型,使其能夠理解並利用這些3D框。此外,該方法還支援區域性細化,例如調整一個跳躍軌跡或新增一個互動,而不會對全域性場景造成過多幹擾。

在實驗部分,研究團隊在nuScenes、HO-3D和BEHAVE基準上進行了廣泛評估,結果顯示LooseControlVideo顯著優於現有的基於2D框和光流的基線方法。具體而言,在軌跡誤差上取得了1.2到3倍的改進,剛體運動一致性提高了2倍,遮擋準確率提升了1.5到2倍。這些結果表明,定向3D基元為複雜的多智慧體影片創作提供了良好的幾何先驗。

LooseControlVideo的提出為影片生成中的空間控制開闢了新的可能性,使得使用者能夠更直觀地編排複雜的動態場景,而無需處理繁瑣的逐幀標註。該框架不僅提高了生成的靈活性和表現力,還保持了較高的結構保真度,有望在電影製作、遊戲開發和虛擬現實等領域得到廣泛應用。