AI News HubLIVE
站内改写1 分钟阅读

CineOrchestra:面向电影视频生成的统一实体中心条件控制

CineOrchestra是一种统一的视频扩散模型,能够同时控制主体、事件、摄像机和镜头切换,通过实体中心条件原语和两种无参数的有序旋转嵌入实现。在两项新基准测试中,它优于六种单轴专业模型。

来源arXiv Computer Vision作者: Sharath Girish, Tsai-Shien Chen, Zhikang Dong, Mukesh Singhal, Hao Chen, Sergey Tulyakov, Aliaksandr Siarohin

2026年6月11日,一篇题为《CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation》的论文提交至arXiv。该论文由Sharath Girish等七位作者共同完成,提出了一种创新的视频生成框架,旨在解决电影级视频生成中多项细粒度控制问题。

电影视频通常包含多个主体在特定时刻的动作或互动,伴随精心设计的摄像机运动,并通过镜头切换拼接而成。这些要素要求比现有文本到视频模型更精细的控制能力。以往的研究分别处理多主体个性化、时间控制、多镜头合成或摄像机控制,但从未在单一框架中整合所有四个维度。CineOrchestra正是为了填补这一空白而设计。

CineOrchestra的核心洞察在于,这些异构的电影元素具有共同的底层结构:每个元素都是在一定时间间隔内行动的实体。因此,它们都可以通过统一的实体中心条件原语来表达,并辅以参考图像来指定视觉实体。这一表述将架构挑战简化为单一的位置编码问题。为了解决这一问题,研究者提出了两种无参数的有序旋转嵌入:(a)区间采样时间RoPE(Rotary Position Embedding),可在不同时长的事件中保持一致的注意力行为;(b)2D实体-时间交叉注意力RoPE,用于区分每个实体的条件并将其路由到相应的时空区域。这两种嵌入协同工作,无需额外参数即可实现精确的条件控制。

在两项新构建的基准测试中,CineOrchestra在密集字幕跟随和镜头切换时序方面优于六种单轴专业模型。这些基准测试分别针对多主体个性化、时间控制、多镜头合成和摄像机控制等维度进行评估,CineOrchestra在综合指标上表现突出。成对用户研究和组件消融实验也一致验证了其性能提升。

CineOrchestra的项目页面已经公开,相关代码和数据将在后续发布。这项研究为电影视频生成领域提供了一种统一的解决方案,有望推动视频AI在影视制作、广告生成等领域的应用。