AI News HubLIVE
站内改写1 分钟阅读

SANA-Streaming:基于混合扩散变压器的实时流式视频编辑

SANA-Streaming是一个系统-算法协同设计的框架,用于在消费级GPU上进行高分辨率实时流式视频编辑。它采用混合扩散变压器架构、循环反向正则化训练策略和高效系统协同设计,在RTX 5090上实现1280x704分辨率24 FPS的实时编辑。实验表明,该方法在时间一致性和系统吞吐量上显著优于现有技术。

来源arXiv Computer Vision作者: Yuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

实时流式视频编辑(V2V)对于直播、游戏等交互式应用至关重要,但时间一致性和推理吞吐量的严格要求使其成为一项艰巨挑战。近日,来自多家机构的研究团队提出了SANA-Streaming,一个系统-算法协同设计的框架,能够在消费级GPU(如RTX 5090)上实现高分辨率实时流式视频编辑。该框架包含三项核心设计。

首先,混合扩散变压器架构对传统扩散变压器进行了改进。它在部分块中引入softmax注意力,从而增强对局部细节的建模能力,同时保留线性层的计算效率。这种设计在保证生成质量的同时,避免了全注意力的高计算开销。

其次,循环反向正则化是一种新颖的训练策略。它通过流匹配从生成的内容预测源帧,强制语义一致性,从而在不需成对长编辑视频的情况下提高时间一致性。这一方法有效缓解了视频编辑中常见的帧间闪烁和抖动问题。

最后,高效系统协同设计结合了融合GDN(分组归一化)内核和针对NVIDIA Blackwell(RTX 5090)架构优化的混合精度量化(MPQ)。通过分析实际吞吐量,MPQ在保持生成质量的同时,最大化张量核心的利用率。这使得系统在单个RTX 5090 GPU上以1280x704分辨率实现24 FPS的端到端实时编辑,其中DiT核心运行速度达到58 FPS。

实验结果显示,这种协同设计方法在时间连贯性和系统吞吐量上均显著优于现有最先进方法。例如,在多项基准测试中,SANA-Streaming在保持高编辑质量的同时,将推理速度提升了数倍。这一突破为实时视频编辑应用(如直播特效、游戏内视频修改)开辟了新的可能性,表明通过系统与算法的紧密协作,可以在消费级硬件上实现以往需要专业设备才能完成的实时视频处理任务。