AI News HubLIVE
站内改写1 分钟阅读

LooseControlVideo:使用空间模块化实现导演级视频控制

LooseControlVideo是一种新颖的框架,通过稀疏定向3D框作为“模块化”代理,实现直观且富有表现力的文本到视频生成控制。该方法在Wan 2.2骨干网络上微调,使用DNOCS编码处理3D尺寸、方向和深度排序遮挡,支持局部细化而不破坏全局场景。在nuScenes、HO-3D和BEHAVE基准测试中,它在轨迹误差、刚体运动一致性和遮挡准确率上显著优于现有方法。

来源arXiv Computer Vision作者: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本到视频生成领域,精确的3D空间编排仍然是一个重大挑战,尤其是在涉及多个物体的场景中,语义布局和时间动态常常纠缠不清。现有的深度条件模型虽然能够实现良好的结构保真度,但它们需要密集且逐帧精确的指导,这对于包含可变形物体的动态事件来说,制作起来非常耗时。针对这一问题,来自研究团队的Shariq Farooq Bhat等人提出了LooseControlVideo框架,这是一种能够通过稀疏、定向的3D框作为“模块化”代理,实现直观且富有表现力的视频控制的新方法。

LooseControlVideo的核心创新在于使用稀疏的3D框来替代传统的密集深度图或2D框,从而允许用户仅通过定义高层布局和轨迹来指导视频生成,而视频生成模型则负责生成逼真的遮挡、动态和交互。研究团队通过在Wan 2.2骨干网络上进行微调,并使用DNOCS编码(一种用于3D尺寸、方向和深度排序遮挡的新型编码)来训练模型,使其能够理解并利用这些3D框。此外,该方法还支持局部细化,例如调整一个跳跃轨迹或添加一个交互,而不会对全局场景造成过多干扰。

在实验部分,研究团队在nuScenes、HO-3D和BEHAVE基准上进行了广泛评估,结果显示LooseControlVideo显著优于现有的基于2D框和光流的基线方法。具体而言,在轨迹误差上取得了1.2到3倍的改进,刚体运动一致性提高了2倍,遮挡准确率提升了1.5到2倍。这些结果表明,定向3D基元为复杂的多智能体视频创作提供了良好的几何先验。

LooseControlVideo的提出为视频生成中的空间控制开辟了新的可能性,使得用户能够更直观地编排复杂的动态场景,而无需处理繁琐的逐帧标注。该框架不仅提高了生成的灵活性和表现力,还保持了较高的结构保真度,有望在电影制作、游戏开发和虚拟现实等领域得到广泛应用。