AI News HubLIVE
サイト内リライト2 分で読了

動画生成のための拡散モデル

拡散モデルは画像合成で顕著な成果を上げてきましたが、研究コミュニティはより困難な動画生成タスクに取り組んでいます。このタスクは画像生成のスーパーセットであり、時間的一貫性とより多くの世界知識が必要です。本記事では、ゼロからのモデル設計、3D U-NetやDiTアーキテクチャ、事前学習画像モデルの微調整や学習不要の適応手法について解説します。

ソースLilian Weng

拡散モデルは画像合成で目覚ましい成果を上げてきましたが、研究コミュニティは現在、より困難なタスクである動画生成に取り組んでいます。画像が1フレームの動画であると考えると、動画生成は画像生成のスーパーセットであり、時間方向の一貫性が新たに要求されるため、より多くの世界知識をモデルにエンコードする必要があります。また、高品質な動画データ(特にテキストと動画のペア)の収集は画像データに比べてはるかに困難です。本稿では、動画拡散モデルの主要な研究を体系的に解説します。

ゼロから動画拡散モデルを設計する方法は、パラメータ化、サンプリング、アーキテクチャに分けられます。パラメータ化では、ノイズスケジュール(α_t, σ_t)を定義し、ノイズ除去過程で動画を生成します。サンプリング時には再構成ガイダンスや分類器フリーガイダンスが用いられ、サンプル品質を向上させます。アーキテクチャでは、3D U-Netが時空間次元を分解した畳み込みと注意機構で動画を処理し、VDMやImagen Videoが代表例です。VDMは2D U-Netを3Dに拡張し、空間と時間の操作を分離、時間注意機構でフレーム間のコヒーレンスを捕捉します。Imagen Videoは7つの拡散モデルからなるカスケード構造で、1280x768解像度、24fpsの出力を実現し、プログレッシブ蒸留によりサンプリングステップを大幅に削減します。一方、DiT(拡散Transformer)は動画と画像の潜在表現を時空間パッチのシーケンスとして扱い、Transformerで処理します。Soraはこのアーキテクチャを採用し、優れたスケーラビリティを示しています。

もう一つの主要なアプローチは、事前学習された画像拡散モデルを「膨張」させて時間層を追加し、動画生成に適応する方法です。これにより画像-テキスト知識を継承し、テキスト-動画ペアデータの要求を軽減できます。微調整手法としては、Make-A-Videoが事前学習画像モデルに擬似3D畳み込みと注意層を挿入し、動画データで新しい層のみを微調整します。Video LDMは潜在拡散モデル(LDM)の画像生成器に時間層を追加し、新しいパラメータのみを微調整し、さらにデコーダを時間的に微調整してフリッカーアーティファクトを低減します。Stable Video Diffusionはデータキュレーションの重要性を強調し、オプティカルフロー、テキスト検出、美学スコアを用いてデータセットの品質を向上させる3段階のトレーニング戦略を採用しています。Lumiereは時空間U-Net(STUNet)を採用し、動画全体を一度に生成することで時間超解像モジュールを不要にしました。

驚くべきことに、学習不要の適応手法も存在します。Text2Video-Zeroは運動ダイナミクス(オプティカルフローに基づく)とフレーム間注意機構(最初のフレームを参照)を用いて時間的一貫性を保持し、一切のトレーニングなしでコヒーレントな動画を生成します。ControlVideoはControlNetと組み合わせ、全フレーム間注意、交互フレーム平滑化、階層的サンプリングにより高品質な制御可能動画生成を実現し、長い動画でも時間的一貫性を維持できます。

動画拡散は画像拡散の拡張から独立した革新へと進化しており、効率性、一貫性、データ利用の面でさらなる改善の余地があります。