2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

CoMoGen：基于掩码引导的视频生成实现可控运动动力学与交互

CoMoGen是一种可控视频生成框架，通过输入图像的二进制掩码序列生成逼真的交互动态。它引入轻量级MaskAdapter将掩码编码为潜在残差信号，并通过余弦加权调度注入多模态扩散变换器（MMDiT）。通过在MMDiT注意力空间中识别“运动层”，并仅对运动层使用低秩适配（LoRA）进行微调，CoMoGen在不改变架构的情况下降低了计算成本。实验表明，CoMoGen在运动保真度和感知真实感方面达到了最先进水平。

来源arXiv Computer Vision作者: Adil Meric, Lin Geng Foo, Mert Kiray, Benjamin Busam, Rishabh Dabral, Christian Theobalt

近日，来自研究团队的一项新工作CoMoGen（Controllable Motion Dynamics and Interactions with Mask-Guided Video Generation）提出了一种基于掩码引导的可控视频生成框架。该框架能够仅通过输入图像和一组二进制掩码序列，生成包含精确主体运动以及与周围人、物体和场景合理交互的动态视频。这一创新方法为解决视频生成中对运动精确控制的需求提供了新的思路。

CoMoGen的核心创新在于其轻量级的MaskAdapter模块。该模块将二进制掩码序列编码为潜在残差信号，并通过余弦加权的时间调度策略注入到多模态扩散变换器（MMDiT）模型中。与UNet架构采用的层次化粗到细设计不同，MMDiT由一系列均匀的Transformer块组成，这使得识别负责运动生成的层变得困难。为此，研究者提出了一种新颖的方法，在MMDiT的注意力空间中确定“运动层”（Motion Layers），并仅对这些层使用低秩适配（LoRA）进行微调。这种选择性适配策略使模型能够专注于运动关键组件，同时大幅降低计算成本。

尽管方法简单，CoMoGen在控制主体精确运动以及与周围环境产生合理交互方面表现出色。在多个数据集上的综合实验表明，CoMoGen在运动保真度和感知真实感指标上一致优于先前的可控视频生成方法，达到了当前最先进的性能。该研究的项目页面已公开，提供更多细节和演示。CoMoGen的出现有望推动视频生成技术在影视制作、虚拟现实和机器人仿真等领域的应用，为需要精细运动控制的任务提供了高效且灵活的解决方案。