AI News HubLIVE
站内改写1 分钟阅读

STARFlow-V:基于归一化流的端到端视频生成建模

苹果机器学习研究团队提出STARFlow-V,一种基于归一化流的视频生成器,具有端到端学习、鲁棒因果预测和原生似然估计等优势。该模型在时空潜空间中采用全局-局部架构,并通过流得分匹配和视频感知雅可比迭代方案,实现了高视觉保真度和时间一致性,首次证明了归一化流在高质量自回归视频生成中的潜力。

苹果机器学习研究团队在CVPR 2026上发表了STARFlow-V,这是一种基于归一化流(Normalizing Flows)的端到端视频生成模型。长期以来,扩散模型在视频生成领域占据主导地位,但归一化流因其可逆结构和原生似然估计能力而重新受到关注。STARFlow-V建立在先前提出的STARFlow图像生成模型之上,并将其扩展至视频领域,旨在解决时空复杂性和计算成本高的挑战。

STARFlow-V的核心创新在于其全局-局部架构。该模型在时空潜空间中操作,将因果依赖关系限制在全局潜空间,同时保留帧内丰富的局部交互。这种设计有效缓解了标准自回归扩散模型中常见的误差累积问题,使得生成的长视频具有更好的连贯性。此外,团队提出了流得分匹配(Flow-Score Matching)技术,为模型配备轻量级的因果去噪器,以自回归方式进一步提升视频生成的一致性。

为了提高采样效率,STARFlow-V引入了视频感知雅可比迭代方案(Video-Aware Jacobi Iteration Scheme)。该方案将内部更新重新表述为可并行的迭代过程,同时不破坏因果性。得益于归一化流的可逆结构,同一模型可以原生支持文本到视频、图像到视频以及视频到视频的生成任务,极大增强了模型的通用性。

实验结果显示,STARFlow-V在视觉保真度和时间一致性方面均表现出色,并且具有实用的采样吞吐量,与基于扩散的基线模型相比具有竞争力。这些结果首次证明了归一化流能够实现高质量的自回归视频生成,为构建世界模型提供了有前景的研究方向。该工作由Jiatao Gu(宾夕法尼亚大学)、Ying Shen(伊利诺伊大学厄巴纳-香槟分校)等作者完成,部分研究在苹果进行。