2024-04-12 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

視頻生成的擴散模型

擴散模型在圖像合成方面取得了顯著成果，現在研究界正轉向更困難的視頻生成任務。本文回顧了從零開始設計擴散視頻模型的方法，包括參數化、採樣、3D U-Net和DiT架構，以及通過微調或免訓練適應將圖像模型擴展到視頻的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

來源Lilian Weng

擴散模型在圖像合成領域已展現出強大能力，而視頻生成作為其自然延伸，面臨更嚴峻的挑戰：不僅需要保持幀間時間一致性，還天然要求模型編碼更多世界知識，且高質量視頻數據（尤其是文本-視頻對）的獲取難度遠高於圖像數據。本文系統梳理了視頻擴散模型的主要研究方向，涵蓋從零開始建模和基於圖像模型適應兩大範式。

從零開始訓練視頻擴散模型的方法主要圍繞參數化、採樣和架構設計。參數化方面，模型通常定義噪聲調度（如α_t和σ_t），通過去噪過程生成視頻。採樣時可使用重建引導或分類器無關引導來提升樣本質量。架構方面，3D U-Net通過分解空間和時間維度的卷積與注意力機制處理視頻數據，代表工作有VDM和Imagen Video。VDM將2D U-Net擴展為3D，使用時空分離的卷積和注意力，空間操作在每個幀上獨立進行，時間注意力則跨幀混合信息。Imagen Video採用級聯架構，包含7個擴散模型，支持1280x768分辨率、24fps輸出，並通過漸進式蒸餾將採樣步驟大幅減少。而DiT（擴散Transformer）則將視頻和圖像潛在編碼表示為時空塊序列，通過Transformer處理，Sora即採用此架構，展現了良好的擴展性。

另一主流方法是利用預訓練圖像擴散模型，通過“膨脹”操作添加時間層來適應視頻生成，從而繼承圖像-文本知識並減少對視頻-文本對數據的需求。微調方法包括：Make-A-Video在預訓練圖像模型基礎上插入偽3D卷積和注意力層，並在視頻數據上微調新層；Video LDM在潛在擴散模型（LDM）的圖像生成器後添加時間層，僅微調新參數，並額外對解碼器進行時間微調以避免閃爍偽影；Stable Video Diffusion則強調數據篩選的重要性，通過光流、文本檢測和美學評分提升數據集質量，三階段訓練策略顯著提升了模型性能。Lumiere採用空間時間U-Net（STUNet），一次性生成完整視頻，避免了對時間超分辨率模塊的依賴。

令人驚訝的是，免訓練方法也能實現零樣本視頻生成。Text2Video-Zero通過運動動態潛在編碼（基於光流）和跨幀注意力機制（以第一幀為參考）保持時間一致性，無需任何訓練即可生成連貫視頻。ControlVideo則結合ControlNet，通過全跨幀注意力、交替幀平滑和層次化採樣器實現高質量可控視頻生成，支持長視頻的時間一致性。

總體而言，視頻擴散正從圖像擴散的擴展走向獨立創新，未來在效率、一致性和數據利用上仍有廣闊改進空間。