AI News HubLIVE
站內改寫1 分鐘閱讀

STARFlow-V:基於歸一化流的端到端視頻生成建模

蘋果機器學習研究團隊提出STARFlow-V,一種基於歸一化流的視頻生成器,具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全局-局部架構,並通過流得分匹配和視頻感知雅可比迭代方案,實現了高視覺保真度和時間一致性,首次證明了歸一化流在高質量自迴歸視頻生成中的潛力。

蘋果機器學習研究團隊在CVPR 2026上發表了STARFlow-V,這是一種基於歸一化流(Normalizing Flows)的端到端視頻生成模型。長期以來,擴散模型在視頻生成領域佔據主導地位,但歸一化流因其可逆結構和原生似然估計能力而重新受到關注。STARFlow-V建立在先前提出的STARFlow圖像生成模型之上,並將其擴展至視頻領域,旨在解決時空複雜性和計算成本高的挑戰。

STARFlow-V的核心創新在於其全局-局部架構。該模型在時空潛空間中操作,將因果依賴關係限制在全局潛空間,同時保留幀內豐富的局部交互。這種設計有效緩解了標準自迴歸擴散模型中常見的誤差累積問題,使得生成的長視頻具有更好的連貫性。此外,團隊提出了流得分匹配(Flow-Score Matching)技術,為模型配備輕量級的因果去噪器,以自迴歸方式進一步提升視頻生成的一致性。

為了提高採樣效率,STARFlow-V引入了視頻感知雅可比迭代方案(Video-Aware Jacobi Iteration Scheme)。該方案將內部更新重新表述為可並行的迭代過程,同時不破壞因果性。得益於歸一化流的可逆結構,同一模型可以原生支持文本到視頻、圖像到視頻以及視頻到視頻的生成任務,極大增強了模型的通用性。

實驗結果顯示,STARFlow-V在視覺保真度和時間一致性方面均表現出色,並且具有實用的採樣吞吐量,與基於擴散的基線模型相比具有競爭力。這些結果首次證明了歸一化流能夠實現高質量的自迴歸視頻生成,為構建世界模型提供了有前景的研究方向。該工作由Jiatao Gu(賓夕法尼亞大學)、Ying Shen(伊利諾伊大學厄巴納-香檳分校)等作者完成,部分研究在蘋果進行。