AI News HubLIVE
站内改写2 分钟阅读

视频生成的扩散模型

扩散模型在图像合成方面取得了显著成果,现在研究界正转向更困难的视频生成任务。本文回顾了从零开始设计扩散视频模型的方法,包括参数化、采样、3D U-Net和DiT架构,以及通过微调或免训练适应将图像模型扩展到视频的技术。重点介绍了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

扩散模型在图像合成领域已展现出强大能力,而视频生成作为其自然延伸,面临更严峻的挑战:不仅需要保持帧间时间一致性,还天然要求模型编码更多世界知识,且高质量视频数据(尤其是文本-视频对)的获取难度远高于图像数据。本文系统梳理了视频扩散模型的主要研究方向,涵盖从零开始建模和基于图像模型适应两大范式。

从零开始训练视频扩散模型的方法主要围绕参数化、采样和架构设计。参数化方面,模型通常定义噪声调度(如α_t和σ_t),通过去噪过程生成视频。采样时可使用重建引导或分类器无关引导来提升样本质量。架构方面,3D U-Net通过分解空间和时间维度的卷积与注意力机制处理视频数据,代表工作有VDM和Imagen Video。VDM将2D U-Net扩展为3D,使用时空分离的卷积和注意力,空间操作在每个帧上独立进行,时间注意力则跨帧混合信息。Imagen Video采用级联架构,包含7个扩散模型,支持1280x768分辨率、24fps输出,并通过渐进式蒸馏将采样步骤大幅减少。而DiT(扩散Transformer)则将视频和图像潜在编码表示为时空块序列,通过Transformer处理,Sora即采用此架构,展现了良好的扩展性。

另一主流方法是利用预训练图像扩散模型,通过“膨胀”操作添加时间层来适应视频生成,从而继承图像-文本知识并减少对视频-文本对数据的需求。微调方法包括:Make-A-Video在预训练图像模型基础上插入伪3D卷积和注意力层,并在视频数据上微调新层;Video LDM在潜在扩散模型(LDM)的图像生成器后添加时间层,仅微调新参数,并额外对解码器进行时间微调以避免闪烁伪影;Stable Video Diffusion则强调数据筛选的重要性,通过光流、文本检测和美学评分提升数据集质量,三阶段训练策略显著提升了模型性能。Lumiere采用空间时间U-Net(STUNet),一次性生成完整视频,避免了对时间超分辨率模块的依赖。

令人惊讶的是,免训练方法也能实现零样本视频生成。Text2Video-Zero通过运动动态潜在编码(基于光流)和跨帧注意力机制(以第一帧为参考)保持时间一致性,无需任何训练即可生成连贯视频。ControlVideo则结合ControlNet,通过全跨帧注意力、交替帧平滑和层次化采样器实现高质量可控视频生成,支持长视频的时间一致性。

总体而言,视频扩散正从图像扩散的扩展走向独立创新,未来在效率、一致性和数据利用上仍有广阔改进空间。