2026-06-15站内改写1 分钟阅读更新: 2026-06-15

CineOrchestra：面向电影视频生成的统一实体中心条件控制

CineOrchestra是一种统一的视频扩散模型，能够同时控制主体、事件、摄像机和镜头切换，通过实体中心条件原语和两种无参数的有序旋转嵌入实现。在两项新基准测试中，它优于六种单轴专业模型。

来源arXiv Computer Vision作者: Sharath Girish, Tsai-Shien Chen, Zhikang Dong, Mukesh Singhal, Hao Chen, Sergey Tulyakov, Aliaksandr Siarohin

2026年6月11日，一篇题为《CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation》的论文提交至arXiv。该论文由Sharath Girish等七位作者共同完成，提出了一种创新的视频生成框架，旨在解决电影级视频生成中多项细粒度控制问题。

电影视频通常包含多个主体在特定时刻的动作或互动，伴随精心设计的摄像机运动，并通过镜头切换拼接而成。这些要素要求比现有文本到视频模型更精细的控制能力。以往的研究分别处理多主体个性化、时间控制、多镜头合成或摄像机控制，但从未在单一框架中整合所有四个维度。CineOrchestra正是为了填补这一空白而设计。

CineOrchestra的核心洞察在于，这些异构的电影元素具有共同的底层结构：每个元素都是在一定时间间隔内行动的实体。因此，它们都可以通过统一的实体中心条件原语来表达，并辅以参考图像来指定视觉实体。这一表述将架构挑战简化为单一的位置编码问题。为了解决这一问题，研究者提出了两种无参数的有序旋转嵌入：（a）区间采样时间RoPE（Rotary Position Embedding），可在不同时长的事件中保持一致的注意力行为；（b）2D实体-时间交叉注意力RoPE，用于区分每个实体的条件并将其路由到相应的时空区域。这两种嵌入协同工作，无需额外参数即可实现精确的条件控制。

在两项新构建的基准测试中，CineOrchestra在密集字幕跟随和镜头切换时序方面优于六种单轴专业模型。这些基准测试分别针对多主体个性化、时间控制、多镜头合成和摄像机控制等维度进行评估，CineOrchestra在综合指标上表现突出。成对用户研究和组件消融实验也一致验证了其性能提升。

CineOrchestra的项目页面已经公开，相关代码和数据将在后续发布。这项研究为电影视频生成领域提供了一种统一的解决方案，有望推动视频AI在影视制作、广告生成等领域的应用。