2024-04-12 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

视频生成的扩散模型

扩散模型在图像合成方面取得了显著成果，现在研究界正转向更困难的视频生成任务。本文回顾了从零开始设计扩散视频模型的方法，包括参数化、采样、3D U-Net和DiT架构，以及通过微调或免训练适应将图像模型扩展到视频的技术。重点介绍了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

来源Lilian Weng

扩散模型在图像合成领域已展现出强大能力，而视频生成作为其自然延伸，面临更严峻的挑战：不仅需要保持帧间时间一致性，还天然要求模型编码更多世界知识，且高质量视频数据（尤其是文本-视频对）的获取难度远高于图像数据。本文系统梳理了视频扩散模型的主要研究方向，涵盖从零开始建模和基于图像模型适应两大范式。

从零开始训练视频扩散模型的方法主要围绕参数化、采样和架构设计。参数化方面，模型通常定义噪声调度（如α_t和σ_t），通过去噪过程生成视频。采样时可使用重建引导或分类器无关引导来提升样本质量。架构方面，3D U-Net通过分解空间和时间维度的卷积与注意力机制处理视频数据，代表工作有VDM和Imagen Video。VDM将2D U-Net扩展为3D，使用时空分离的卷积和注意力，空间操作在每个帧上独立进行，时间注意力则跨帧混合信息。Imagen Video采用级联架构，包含7个扩散模型，支持1280x768分辨率、24fps输出，并通过渐进式蒸馏将采样步骤大幅减少。而DiT（扩散Transformer）则将视频和图像潜在编码表示为时空块序列，通过Transformer处理，Sora即采用此架构，展现了良好的扩展性。

另一主流方法是利用预训练图像扩散模型，通过“膨胀”操作添加时间层来适应视频生成，从而继承图像-文本知识并减少对视频-文本对数据的需求。微调方法包括：Make-A-Video在预训练图像模型基础上插入伪3D卷积和注意力层，并在视频数据上微调新层；Video LDM在潜在扩散模型（LDM）的图像生成器后添加时间层，仅微调新参数，并额外对解码器进行时间微调以避免闪烁伪影；Stable Video Diffusion则强调数据筛选的重要性，通过光流、文本检测和美学评分提升数据集质量，三阶段训练策略显著提升了模型性能。Lumiere采用空间时间U-Net（STUNet），一次性生成完整视频，避免了对时间超分辨率模块的依赖。

令人惊讶的是，免训练方法也能实现零样本视频生成。Text2Video-Zero通过运动动态潜在编码（基于光流）和跨帧注意力机制（以第一帧为参考）保持时间一致性，无需任何训练即可生成连贯视频。ControlVideo则结合ControlNet，通过全跨帧注意力、交替帧平滑和层次化采样器实现高质量可控视频生成，支持长视频的时间一致性。

总体而言，视频扩散正从图像扩散的扩展走向独立创新，未来在效率、一致性和数据利用上仍有广阔改进空间。