視頻生成的擴散模型
擴散模型在圖像合成方面取得了顯著成果,現在研究界正轉向更困難的視頻生成任務。本文回顧了從零開始設計擴散視頻模型的方法,包括參數化、採樣、3D U-Net和DiT架構,以及通過微調或免訓練適應將圖像模型擴展到視頻的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。
擴散模型在圖像合成領域已展現出強大能力,而視頻生成作為其自然延伸,面臨更嚴峻的挑戰:不僅需要保持幀間時間一致性,還天然要求模型編碼更多世界知識,且高質量視頻數據(尤其是文本-視頻對)的獲取難度遠高於圖像數據。本文系統梳理了視頻擴散模型的主要研究方向,涵蓋從零開始建模和基於圖像模型適應兩大範式。
從零開始訓練視頻擴散模型的方法主要圍繞參數化、採樣和架構設計。參數化方面,模型通常定義噪聲調度(如α_t和σ_t),通過去噪過程生成視頻。採樣時可使用重建引導或分類器無關引導來提升樣本質量。架構方面,3D U-Net通過分解空間和時間維度的卷積與注意力機制處理視頻數據,代表工作有VDM和Imagen Video。VDM將2D U-Net擴展為3D,使用時空分離的卷積和注意力,空間操作在每個幀上獨立進行,時間注意力則跨幀混合信息。Imagen Video採用級聯架構,包含7個擴散模型,支持1280x768分辨率、24fps輸出,並通過漸進式蒸餾將採樣步驟大幅減少。而DiT(擴散Transformer)則將視頻和圖像潛在編碼表示為時空塊序列,通過Transformer處理,Sora即採用此架構,展現了良好的擴展性。
另一主流方法是利用預訓練圖像擴散模型,通過“膨脹”操作添加時間層來適應視頻生成,從而繼承圖像-文本知識並減少對視頻-文本對數據的需求。微調方法包括:Make-A-Video在預訓練圖像模型基礎上插入偽3D卷積和注意力層,並在視頻數據上微調新層;Video LDM在潛在擴散模型(LDM)的圖像生成器後添加時間層,僅微調新參數,並額外對解碼器進行時間微調以避免閃爍偽影;Stable Video Diffusion則強調數據篩選的重要性,通過光流、文本檢測和美學評分提升數據集質量,三階段訓練策略顯著提升了模型性能。Lumiere採用空間時間U-Net(STUNet),一次性生成完整視頻,避免了對時間超分辨率模塊的依賴。
令人驚訝的是,免訓練方法也能實現零樣本視頻生成。Text2Video-Zero通過運動動態潛在編碼(基於光流)和跨幀注意力機制(以第一幀為參考)保持時間一致性,無需任何訓練即可生成連貫視頻。ControlVideo則結合ControlNet,通過全跨幀注意力、交替幀平滑和層次化採樣器實現高質量可控視頻生成,支持長視頻的時間一致性。
總體而言,視頻擴散正從圖像擴散的擴展走向獨立創新,未來在效率、一致性和數據利用上仍有廣闊改進空間。