AI News HubLIVE
站内改写1 分で読了

DTG-Restore:学習不要の拡散モデルによる生成ビデオ超解像リファインメント

本論文では、学習不要でビデオ拡散モデルの事前知識を活用し、歪んだ低解像度ビデオを高品質化するフレームワークDTG-Restoreを提案する。提案手法は、解きほぐし時間ガイダンス(DTG)を用いて条件付きブランチと無条件ブランチの結合を時間的に分離し、よりクリーンな拡散タイムステップで無条件ブランチを評価することで、形状を保持しながら歪みの複製を抑制する。この時間バイアスをサンプリング中にアニールすることで、再学習なしで構造補正から詳細洗練へ移行する。既存の復元モジュールとプラグアンドプレイで組み合わせ可能であり、AI生成ビデオと実世界ビデオの両方で知覚的一貫性と妥当な構造を回復する。評価用に、多様なテキスト・ツー・ビデオモデルから合成された4,400本の歪んだ480pビデオからなるベンチマークGenWarp480を構築。実験により、モデル学習なしで構造忠実度と時間安定性の大幅な向上を実証した。

ソースarXiv Computer Vision著者: Hidir Yesiltepe, Koutilya PNVR, Gaurav Pathak, Navaneeth Bodla, Bharat Singh, Pinar Yanardag, Jinrong Xie

近年、ビデオ拡散モデルの進歩により、驚異的な生成忠実度が実現されていますが、これらの事前知識を復元に活用するには、標準的な分類器不要ガイダンスにおける条件付きブランチと無条件ブランチの強い結合が課題となっていました。この問題に対処するため、Hidir Yesiltepe氏らの研究チームは、学習不要で歪んだ低解像度ビデオを強化する新しいフレームワーク「DTG-Restore」を提案しました。

DTG-Restoreの核心は、提案された解きほぐし時間ガイダンス(Decoupled Time Guidance, DTG)にあります。この手法では、よりクリーンな拡散タイムステップで無条件ブランチを評価することで、先読み事前知識を獲得します。この事前知識により、ビデオの形状を保ちながら、歪んだコンテンツの複製を効果的に抑制できます。サンプリング過程でこの時間バイアスを徐々に緩和することで、モデルは再学習することなく、構造補正から詳細の洗練へとスムーズに移行します。

さらに、DTG-Restoreは既存の復元モジュールとプラグアンドプレイで統合できる柔軟性を持ち、AI生成ビデオと実世界ビデオの両方において、知覚的一貫性と妥当な構造復元を実現します。評価のために、研究チームはGenWarp480というベンチマークを構築しました。このベンチマークは、多様なテキスト・ツー・ビデオモデルから合成された4,400本の歪んだ480pビデオで構成され、歪んだ顔、身体の位置ずれ、空間的アーティファクトといった生成特有の劣化に焦点を当てています。

広範な実験により、DTG-Restoreはモデル学習を一切行わずに、構造忠実度と時間安定性において顕著な改善を達成することが示されました。この研究は、特に生成モデルによって引き起こされる複雑な劣化に対処するための、効率的で実用的な新しいアプローチを提供します。