2026-06-19站内改写1 分钟阅读更新: 2026-06-19

LooseControlVideo：使用空间模块化实现导演级视频控制

LooseControlVideo是一种新颖的框架，通过稀疏定向3D框作为“模块化”代理，实现直观且富有表现力的文本到视频生成控制。该方法在Wan 2.2骨干网络上微调，使用DNOCS编码处理3D尺寸、方向和深度排序遮挡，支持局部细化而不破坏全局场景。在nuScenes、HO-3D和BEHAVE基准测试中，它在轨迹误差、刚体运动一致性和遮挡准确率上显著优于现有方法。

来源arXiv Computer Vision作者: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本到视频生成领域，精确的3D空间编排仍然是一个重大挑战，尤其是在涉及多个物体的场景中，语义布局和时间动态常常纠缠不清。现有的深度条件模型虽然能够实现良好的结构保真度，但它们需要密集且逐帧精确的指导，这对于包含可变形物体的动态事件来说，制作起来非常耗时。针对这一问题，来自研究团队的Shariq Farooq Bhat等人提出了LooseControlVideo框架，这是一种能够通过稀疏、定向的3D框作为“模块化”代理，实现直观且富有表现力的视频控制的新方法。

LooseControlVideo的核心创新在于使用稀疏的3D框来替代传统的密集深度图或2D框，从而允许用户仅通过定义高层布局和轨迹来指导视频生成，而视频生成模型则负责生成逼真的遮挡、动态和交互。研究团队通过在Wan 2.2骨干网络上进行微调，并使用DNOCS编码（一种用于3D尺寸、方向和深度排序遮挡的新型编码）来训练模型，使其能够理解并利用这些3D框。此外，该方法还支持局部细化，例如调整一个跳跃轨迹或添加一个交互，而不会对全局场景造成过多干扰。

在实验部分，研究团队在nuScenes、HO-3D和BEHAVE基准上进行了广泛评估，结果显示LooseControlVideo显著优于现有的基于2D框和光流的基线方法。具体而言，在轨迹误差上取得了1.2到3倍的改进，刚体运动一致性提高了2倍，遮挡准确率提升了1.5到2倍。这些结果表明，定向3D基元为复杂的多智能体视频创作提供了良好的几何先验。

LooseControlVideo的提出为视频生成中的空间控制开辟了新的可能性，使得用户能够更直观地编排复杂的动态场景，而无需处理繁琐的逐帧标注。该框架不仅提高了生成的灵活性和表现力，还保持了较高的结构保真度，有望在电影制作、游戏开发和虚拟现实等领域得到广泛应用。