2026-04-30 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

STARFlow-V：基於歸一化流的端到端視頻生成建模

蘋果機器學習研究團隊提出STARFlow-V，一種基於歸一化流的視頻生成器，具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全局-局部架構，並通過流得分匹配和視頻感知雅可比迭代方案，實現了高視覺保真度和時間一致性，首次證明了歸一化流在高質量自迴歸視頻生成中的潛力。

來源Apple Machine Learning Research

蘋果機器學習研究團隊在CVPR 2026上發表了STARFlow-V，這是一種基於歸一化流（Normalizing Flows）的端到端視頻生成模型。長期以來，擴散模型在視頻生成領域佔據主導地位，但歸一化流因其可逆結構和原生似然估計能力而重新受到關注。STARFlow-V建立在先前提出的STARFlow圖像生成模型之上，並將其擴展至視頻領域，旨在解決時空複雜性和計算成本高的挑戰。

STARFlow-V的核心創新在於其全局-局部架構。該模型在時空潛空間中操作，將因果依賴關係限制在全局潛空間，同時保留幀內豐富的局部交互。這種設計有效緩解了標準自迴歸擴散模型中常見的誤差累積問題，使得生成的長視頻具有更好的連貫性。此外，團隊提出了流得分匹配（Flow-Score Matching）技術，為模型配備輕量級的因果去噪器，以自迴歸方式進一步提升視頻生成的一致性。

為了提高採樣效率，STARFlow-V引入了視頻感知雅可比迭代方案（Video-Aware Jacobi Iteration Scheme）。該方案將內部更新重新表述為可並行的迭代過程，同時不破壞因果性。得益於歸一化流的可逆結構，同一模型可以原生支持文本到視頻、圖像到視頻以及視頻到視頻的生成任務，極大增強了模型的通用性。

實驗結果顯示，STARFlow-V在視覺保真度和時間一致性方面均表現出色，並且具有實用的採樣吞吐量，與基於擴散的基線模型相比具有競爭力。這些結果首次證明了歸一化流能夠實現高質量的自迴歸視頻生成，為構建世界模型提供了有前景的研究方向。該工作由Jiatao Gu（賓夕法尼亞大學）、Ying Shen（伊利諾伊大學厄巴納-香檳分校）等作者完成，部分研究在蘋果進行。