AI News HubLIVE
サイト内リライト2 分で読了

STARFlow-V: 正規化フローを用いたエンドツーエンド動画生成モデリング

Apple機械学習研究チームが提案するSTARFlow-Vは、正規化フローに基づく動画生成器であり、エンドツーエンド学習、ロバストな因果予測、ネイティブな尤度推定を提供する。時空間潜在空間におけるグローバル-ローカルアーキテクチャ、フロースコアマッチング、動画対応ヤコビ反復スキームを採用し、高い視覚的忠実度と時間的一貫性を実現。正規化フローが高品質な自己回帰動画生成に有効であることを初めて示した。

Apple機械学習研究チームは、CVPR 2026においてSTARFlow-Vを発表しました。これは正規化フロー(Normalizing Flows)に基づくエンドツーエンドの動画生成モデルです。これまで動画生成分野では拡散モデルが主流でしたが、正規化フローは可逆構造とネイティブな尤度推定能力により再び注目を集めています。STARFlow-Vは、既存の画像生成モデルSTARFlowを拡張し、動画領域における時空間の複雑さと計算コストの課題に取り組みます。

STARFlow-Vの核心は、グローバル-ローカルアーキテクチャにあります。このモデルは時空間潜在空間で動作し、因果依存性をグローバル潜在空間に制限しつつ、フレーム内の豊かなローカル相互作用を保持します。この設計により、標準的な自己回帰拡散モデルで一般的な誤差蓄積問題を軽減し、長い動画の一貫性を向上させます。さらに、チームはフロースコアマッチング(Flow-Score Matching)を提案し、軽量な因果デノイザをモデルに組み込むことで、自己回帰的な動画生成の一貫性を向上させています。

サンプリング効率を高めるため、STARFlow-Vは動画対応ヤコビ反復スキーム(Video-Aware Jacobi Iteration Scheme)を導入し、因果性を損なわずに内部更新を並列化可能な反復として再定義します。正規化フローの可逆構造により、同一モデルがテキストから動画、画像から動画、動画から動画への生成をネイティブにサポートし、汎用性が向上します。

実験結果は、STARFlow-Vが高い視覚的忠実度と時間的一貫性を達成し、拡散ベースのベースラインと比較して実用的なサンプリングスループットを提供することを示しています。これらの結果は、正規化フローが高品質な自己回帰動画生成を実現できる初めての証拠であり、世界モデル構築のための有望な研究方向を確立しています。本研究は、Jiatao Gu(ペンシルベニア大学)、Ying Shen(イリノイ大学アーバナ・シャンペーン校)ら著者によるもので、一部はAppleで行われました。