SANA-Streaming:基於混合擴散變壓器的即時流式影片編輯
SANA-Streaming是一個系統-演算法協同設計的框架,用於在消費級GPU上進行高解析度即時流式影片編輯。它採用混合擴散變壓器架構、迴圈反向正則化訓練策略和高效系統協同設計,在RTX 5090上實現1280x704解析度24 FPS的即時編輯。實驗表明,該方法在時間一致性和系統吞吐量上顯著優於現有技術。
即時流式影片編輯(V2V)對於直播、遊戲等互動式應用至關重要,但時間一致性和推理吞吐量的嚴格要求使其成為一項艱鉅挑戰。近日,來自多家機構的研究團隊提出了SANA-Streaming,一個系統-演算法協同設計的框架,能夠在消費級GPU(如RTX 5090)上實現高解析度即時流式影片編輯。該框架包含三項核心設計。
首先,混合擴散變壓器架構對傳統擴散變壓器進行了改進。它在部分塊中引入softmax注意力,從而增強對區域性細節的建模能力,同時保留線性層的計算效率。這種設計在保證生成質量的同時,避免了全注意力的高計算開銷。
其次,迴圈反向正則化是一種新穎的訓練策略。它透過流匹配從生成的內容預測源幀,強制語義一致性,從而在不需成對長編輯影片的情況下提高時間一致性。這一方法有效緩解了影片編輯中常見的幀間閃爍和抖動問題。
最後,高效系統協同設計結合了融合GDN(分組歸一化)核心和針對NVIDIA Blackwell(RTX 5090)架構最佳化的混合精度量化(MPQ)。透過分析實際吞吐量,MPQ在保持生成質量的同時,最大化張量核心的利用率。這使得系統在單個RTX 5090 GPU上以1280x704解析度實現24 FPS的端到端即時編輯,其中DiT核心執行速度達到58 FPS。
實驗結果顯示,這種協同設計方法在時間連貫性和系統吞吐量上均顯著優於現有最先進方法。例如,在多項基準測試中,SANA-Streaming在保持高編輯質量的同時,將推理速度提升了數倍。這一突破為即時影片編輯應用(如直播特效、遊戲內影片修改)開闢了新的可能性,表明透過系統與演算法的緊密協作,可以在消費級硬體上實現以往需要專業裝置才能完成的即時影片處理任務。