AI News HubLIVE
站内改写1 分鐘閱讀

SANA-Streaming:基於混合擴散變壓器的實時流式視頻編輯

SANA-Streaming是一個系統-算法協同設計的框架,用於在消費級GPU上進行高分辨率實時流式視頻編輯。它採用混合擴散變壓器架構、循環反向正則化訓練策略和高效系統協同設計,在RTX 5090上實現1280x704分辨率24 FPS的實時編輯。實驗表明,該方法在時間一致性和系統吞吐量上顯著優於現有技術。

來源arXiv Computer Vision作者: Yuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

實時流式視頻編輯(V2V)對於直播、遊戲等交互式應用至關重要,但時間一致性和推理吞吐量的嚴格要求使其成為一項艱鉅挑戰。近日,來自多家機構的研究團隊提出了SANA-Streaming,一個系統-算法協同設計的框架,能夠在消費級GPU(如RTX 5090)上實現高分辨率實時流式視頻編輯。該框架包含三項核心設計。

首先,混合擴散變壓器架構對傳統擴散變壓器進行了改進。它在部分塊中引入softmax注意力,從而增強對局部細節的建模能力,同時保留線性層的計算效率。這種設計在保證生成質量的同時,避免了全注意力的高計算開銷。

其次,循環反向正則化是一種新穎的訓練策略。它通過流匹配從生成的內容預測源幀,強制語義一致性,從而在不需成對長編輯視頻的情況下提高時間一致性。這一方法有效緩解了視頻編輯中常見的幀間閃爍和抖動問題。

最後,高效系統協同設計結合了融合GDN(分組歸一化)內核和針對NVIDIA Blackwell(RTX 5090)架構優化的混合精度量化(MPQ)。通過分析實際吞吐量,MPQ在保持生成質量的同時,最大化張量核心的利用率。這使得系統在單個RTX 5090 GPU上以1280x704分辨率實現24 FPS的端到端實時編輯,其中DiT核心運行速度達到58 FPS。

實驗結果顯示,這種協同設計方法在時間連貫性和系統吞吐量上均顯著優於現有最先進方法。例如,在多項基準測試中,SANA-Streaming在保持高編輯質量的同時,將推理速度提升了數倍。這一突破為實時視頻編輯應用(如直播特效、遊戲內視頻修改)開闢了新的可能性,表明通過系統與算法的緊密協作,可以在消費級硬件上實現以往需要專業設備才能完成的實時視頻處理任務。