影片生成的擴散模型
擴散模型在影像合成方面取得了顯著成果,現在研究界正轉向更困難的影片生成任務。本文回顧了從零開始設計擴散影片模型的方法,包括引數化、取樣、3D U-Net和DiT架構,以及透過微調或免訓練適應將影像模型擴充套件到影片的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。
擴散模型在影像合成領域已展現出強大能力,而影片生成作為其自然延伸,面臨更嚴峻的挑戰:不僅需要保持幀間時間一致性,還天然要求模型編碼更多世界知識,且高質量影片資料(尤其是文本-影片對)的獲取難度遠高於影像資料。本文系統梳理了影片擴散模型的主要研究方向,涵蓋從零開始建模和基於影像模型適應兩大正規化。
從零開始訓練影片擴散模型的方法主要圍繞引數化、取樣和架構設計。引數化方面,模型通常定義噪聲排程(如α_t和σ_t),透過去噪過程生成影片。取樣時可使用重建引導或分類器無關引導來提升樣本質量。架構方面,3D U-Net透過分解空間和時間維度的卷積與注意力機制處理影片資料,代表工作有VDM和Imagen Video。VDM將2D U-Net擴充套件為3D,使用時空分離的卷積和注意力,空間操作在每個幀上獨立進行,時間注意力則跨幀混合資訊。Imagen Video採用級聯架構,包含7個擴散模型,支援1280x768解析度、24fps輸出,並透過漸進式蒸餾將取樣步驟大幅減少。而DiT(擴散Transformer)則將影片和影像潛在編碼表示為時空塊序列,透過Transformer處理,Sora即採用此架構,展現了良好的擴充套件性。
另一主流方法是利用預訓練影像擴散模型,透過“膨脹”操作新增時間層來適應影片生成,從而繼承影像-文本知識並減少對影片-文本對資料的需求。微調方法包括:Make-A-Video在預訓練影像模型基礎上插入偽3D卷積和注意力層,並在影片資料上微調新層;Video LDM在潛在擴散模型(LDM)的影像生成器後新增時間層,僅微調新引數,並額外對解碼器進行時間微調以避免閃爍偽影;Stable Video Diffusion則強調資料篩選的重要性,透過光流、文本檢測和美學評分提升資料集質量,三階段訓練策略顯著提升了模型效能。Lumiere採用空間時間U-Net(STUNet),一次性生成完整影片,避免了對時間超解析度模組的依賴。
令人驚訝的是,免訓練方法也能實現零樣本影片生成。Text2Video-Zero透過運動動態潛在編碼(基於光流)和跨幀注意力機制(以第一幀為參考)保持時間一致性,無需任何訓練即可生成連貫影片。ControlVideo則結合ControlNet,透過全跨幀注意力、交替幀平滑和層次化取樣器實現高質量可控影片生成,支援長影片的時間一致性。
總體而言,影片擴散正從影像擴散的擴充套件走向獨立創新,未來在效率、一致性和資料利用上仍有廣闊改進空間。