AI News HubLIVE
站内改写2 分で読了

SANA-Streaming: ハイブリッド拡散トランスフォーマーによるリアルタイムストリーミングビデオ編集

SANA-Streamingは、コンシューマGPU上で高解像度リアルタイムストリーミングビデオ編集を実現するシステム・アルゴリズム共同設計フレームワークです。ハイブリッド拡散トランスフォーマー、サイクルリバース正則化、効率的なシステム共同設計を採用し、RTX 5090で1280x704解像度24 FPSのリアルタイム編集を達成。実験では時間的一貫性とスループットで既存手法を大幅に上回ります。

ソースarXiv Computer Vision著者: Yuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

リアルタイムストリーミングビデオ編集(V2V)は、ライブ放送やゲームなどのインタラクティブアプリケーションにおいて重要な技術ですが、時間的一貫性と推論スループットの厳しい要件から、依然として大きな課題となっています。本研究では、コンシューマ向けGPU上で高解像度のリアルタイムストリーミングビデオ編集を実現する、システム・アルゴリズム共同設計フレームワーク「SANA-Streaming」を提案します。このフレームワークは、以下の3つの中核設計から成ります。

第一に、ハイブリッド拡散トランスフォーマーアーキテクチャは、従来の拡散トランスフォーマーを改良し、一部のブロックにソフトマックス注意を導入することで、局所的なモデリング能力を向上させると同時に、線形層の効率を維持します。これにより、生成品質を保ちながら全注意の高い計算コストを回避します。

第二に、サイクルリバース正則化は、フローマッチングを介して生成コンテンツからソースフレームを予測することで意味的一貫性を強制し、ペアの長編ビデオを必要とせずに時間的一貫性を改善する新しい訓練戦略です。この手法は、ビデオ編集でよく見られるフレーム間のちらつきや揺れを効果的に軽減します。

第三に、効率的なシステム共同設計は、融合GDN(グループ正規化)カーネルとNVIDIA Blackwell(RTX 5090)アーキテクチャ向けに最適化された混合精度量子化(MPQ)を組み合わせます。実際のスループットをプロファイリングすることで、MPQは生成品質を維持しながらテンソルコアの利用率を最大化します。その結果、単一のRTX 5090 GPU上で、1280x704解像度の編集をエンドツーエンドで24 FPS(DiTコアは58 FPS)でリアルタイム処理できます。

実験結果は、この共同設計アプローチが時間的コヒーレンスとシステムスループットの両方で既存の最先端手法を大幅に上回ることを示しています。例えば、複数のベンチマークにおいて、SANA-Streamingは高い編集品質を維持しながら推論速度を数倍向上させました。この成果は、ライブストリーミングのエフェクトやゲーム内ビデオ編集などのリアルタイムビデオ編集アプリケーションに新たな可能性を開き、システムとアルゴリズムの緊密な連携により、従来は専用機器が必要だったリアルタイムビデオ処理をコンシューマハードウェアで実現できることを示しています。