2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

LooseControlVideo：使用空間模塊化實現導演級視頻控制

LooseControlVideo是一種新穎的框架，通過稀疏定向3D框作為“模塊化”代理，實現直觀且富有表現力的文本到視頻生成控制。該方法在Wan 2.2骨幹網絡上微調，使用DNOCS編碼處理3D尺寸、方向和深度排序遮擋，支持局部細化而不破壞全局場景。在nuScenes、HO-3D和BEHAVE基準測試中，它在軌跡誤差、剛體運動一致性和遮擋準確率上顯著優於現有方法。

來源arXiv Computer Vision作者: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本到視頻生成領域，精確的3D空間編排仍然是一個重大挑戰，尤其是在涉及多個物體的場景中，語義佈局和時間動態常常糾纏不清。現有的深度條件模型雖然能夠實現良好的結構保真度，但它們需要密集且逐幀精確的指導，這對於包含可變形物體的動態事件來説，製作起來非常耗時。針對這一問題，來自研究團隊的Shariq Farooq Bhat等人提出了LooseControlVideo框架，這是一種能夠通過稀疏、定向的3D框作為“模塊化”代理，實現直觀且富有表現力的視頻控制的新方法。

LooseControlVideo的核心創新在於使用稀疏的3D框來替代傳統的密集深度圖或2D框，從而允許用户僅通過定義高層佈局和軌跡來指導視頻生成，而視頻生成模型則負責生成逼真的遮擋、動態和交互。研究團隊通過在Wan 2.2骨幹網絡上進行微調，並使用DNOCS編碼（一種用於3D尺寸、方向和深度排序遮擋的新型編碼）來訓練模型，使其能夠理解並利用這些3D框。此外，該方法還支持局部細化，例如調整一個跳躍軌跡或添加一個交互，而不會對全局場景造成過多幹擾。

在實驗部分，研究團隊在nuScenes、HO-3D和BEHAVE基準上進行了廣泛評估，結果顯示LooseControlVideo顯著優於現有的基於2D框和光流的基線方法。具體而言，在軌跡誤差上取得了1.2到3倍的改進，剛體運動一致性提高了2倍，遮擋準確率提升了1.5到2倍。這些結果表明，定向3D基元為複雜的多智能體視頻創作提供了良好的幾何先驗。

LooseControlVideo的提出為視頻生成中的空間控制開闢了新的可能性，使得用户能夠更直觀地編排複雜的動態場景，而無需處理繁瑣的逐幀標註。該框架不僅提高了生成的靈活性和表現力，還保持了較高的結構保真度，有望在電影製作、遊戲開發和虛擬現實等領域得到廣泛應用。