2024-04-12 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

影片生成的擴散模型

擴散模型在影像合成方面取得了顯著成果，現在研究界正轉向更困難的影片生成任務。本文回顧了從零開始設計擴散影片模型的方法，包括引數化、取樣、3D U-Net和DiT架構，以及透過微調或免訓練適應將影像模型擴充套件到影片的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

來源Lilian Weng

擴散模型在影像合成領域已展現出強大能力，而影片生成作為其自然延伸，面臨更嚴峻的挑戰：不僅需要保持幀間時間一致性，還天然要求模型編碼更多世界知識，且高質量影片資料（尤其是文本-影片對）的獲取難度遠高於影像資料。本文系統梳理了影片擴散模型的主要研究方向，涵蓋從零開始建模和基於影像模型適應兩大正規化。

從零開始訓練影片擴散模型的方法主要圍繞引數化、取樣和架構設計。引數化方面，模型通常定義噪聲排程（如α_t和σ_t），透過去噪過程生成影片。取樣時可使用重建引導或分類器無關引導來提升樣本質量。架構方面，3D U-Net透過分解空間和時間維度的卷積與注意力機制處理影片資料，代表工作有VDM和Imagen Video。VDM將2D U-Net擴充套件為3D，使用時空分離的卷積和注意力，空間操作在每個幀上獨立進行，時間注意力則跨幀混合資訊。Imagen Video採用級聯架構，包含7個擴散模型，支援1280x768解析度、24fps輸出，並透過漸進式蒸餾將取樣步驟大幅減少。而DiT（擴散Transformer）則將影片和影像潛在編碼表示為時空塊序列，透過Transformer處理，Sora即採用此架構，展現了良好的擴充套件性。

另一主流方法是利用預訓練影像擴散模型，透過“膨脹”操作新增時間層來適應影片生成，從而繼承影像-文本知識並減少對影片-文本對資料的需求。微調方法包括：Make-A-Video在預訓練影像模型基礎上插入偽3D卷積和注意力層，並在影片資料上微調新層；Video LDM在潛在擴散模型（LDM）的影像生成器後新增時間層，僅微調新引數，並額外對解碼器進行時間微調以避免閃爍偽影；Stable Video Diffusion則強調資料篩選的重要性，透過光流、文本檢測和美學評分提升資料集質量，三階段訓練策略顯著提升了模型效能。Lumiere採用空間時間U-Net（STUNet），一次性生成完整影片，避免了對時間超解析度模組的依賴。

令人驚訝的是，免訓練方法也能實現零樣本影片生成。Text2Video-Zero透過運動動態潛在編碼（基於光流）和跨幀注意力機制（以第一幀為參考）保持時間一致性，無需任何訓練即可生成連貫影片。ControlVideo則結合ControlNet，透過全跨幀注意力、交替幀平滑和層次化取樣器實現高質量可控影片生成，支援長影片的時間一致性。

總體而言，影片擴散正從影像擴散的擴充套件走向獨立創新，未來在效率、一致性和資料利用上仍有廣闊改進空間。