2026-04-30 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

STARFlow-V：基于归一化流的端到端视频生成建模

苹果机器学习研究团队提出STARFlow-V，一种基于归一化流的视频生成器，具有端到端学习、鲁棒因果预测和原生似然估计等优势。该模型在时空潜空间中采用全局-局部架构，并通过流得分匹配和视频感知雅可比迭代方案，实现了高视觉保真度和时间一致性，首次证明了归一化流在高质量自回归视频生成中的潜力。

来源Apple Machine Learning Research

苹果机器学习研究团队在CVPR 2026上发表了STARFlow-V，这是一种基于归一化流（Normalizing Flows）的端到端视频生成模型。长期以来，扩散模型在视频生成领域占据主导地位，但归一化流因其可逆结构和原生似然估计能力而重新受到关注。STARFlow-V建立在先前提出的STARFlow图像生成模型之上，并将其扩展至视频领域，旨在解决时空复杂性和计算成本高的挑战。

STARFlow-V的核心创新在于其全局-局部架构。该模型在时空潜空间中操作，将因果依赖关系限制在全局潜空间，同时保留帧内丰富的局部交互。这种设计有效缓解了标准自回归扩散模型中常见的误差累积问题，使得生成的长视频具有更好的连贯性。此外，团队提出了流得分匹配（Flow-Score Matching）技术，为模型配备轻量级的因果去噪器，以自回归方式进一步提升视频生成的一致性。

为了提高采样效率，STARFlow-V引入了视频感知雅可比迭代方案（Video-Aware Jacobi Iteration Scheme）。该方案将内部更新重新表述为可并行的迭代过程，同时不破坏因果性。得益于归一化流的可逆结构，同一模型可以原生支持文本到视频、图像到视频以及视频到视频的生成任务，极大增强了模型的通用性。

实验结果显示，STARFlow-V在视觉保真度和时间一致性方面均表现出色，并且具有实用的采样吞吐量，与基于扩散的基线模型相比具有竞争力。这些结果首次证明了归一化流能够实现高质量的自回归视频生成，为构建世界模型提供了有前景的研究方向。该工作由Jiatao Gu（宾夕法尼亚大学）、Ying Shen（伊利诺伊大学厄巴纳-香槟分校）等作者完成，部分研究在苹果进行。