テスト時生成ビデオ推論のための時間的バックトラッキング探索
生成ビデオ推論における単一生成の限界を克服するため、研究者らは時間的バックトラッキング探索(TBS)を提案。時間軸に沿って生成・検証・再起動を反復することで、テスト時の計算拡張を実現する。実験では、アルゴリズム、ナビゲーション、ロボティクス領域でBest-of-Nサンプリングを凌駕し、分布外設定で成功率0.7%から22.7%へ向上させた。
大規模言語モデルではテスト時の計算拡張(test-time scaling)が推論能力を飛躍的に向上させたが、生成ビデオモデルでは未だに単一生成(one-shot)が主流であり、論理的な誤りを修正する機構が欠けている。従来の試みとして、拡散ノイズ除去ステップの探索やルートレベルのBest-of-N(BoN)サンプリングが存在するが、前者は空間的軌跡が早期に固定されるため無効であり、後者は検証済みの進行を破棄して盲目的に再サンプリングする非効率さがあった。
本研究では、時間的バックトラッキング探索(Temporal Backtracking Search, TBS)を導入する。TBSは探索空間を時間軸に移し、ビデオ生成を「生成→検証→再起動」の反復ループに変換する。中核メカニズムは以下の三つである:(1) 可変K条件付け(variable-K conditioning):任意のクリーンなプレフィックスから生成を再開可能にする。(2) 時間的プロセス検証(temporal process verification):失敗を局所化し、有効な再起動アンカーを抽出する。(3) プレフィックスベース探索(prefix-based search):ルート再サンプリングではなく、正しい軌跡を延長するために計算リソースを再配分する。
評価はアルゴリズム推論、ナビゲーション、ロボティクスの三領域で実施され、TBSは同等の予算でBoNをパレート支配した。特に厳格な分布外設定では、単一生成とBoNがほぼ全滅(成功率0.7%)する中、TBSは22.7%の成功率を達成し、成功事例はすべて再起動分枝に由来した。
この成果は、ビデオモデルの局所的推論能力が単一生成が示す水準をはるかに上回ることを明らかにし、その潜在能力を引き出すスケーラブルなテスト時フレームワークを提供する。著者にはSejoon Jun氏を含む5名が名を連ね、論文はarXivで公開されている(DOI: 10.48550/arXiv.2606.13861)。