AI News HubLIVE
站内改写1 分鐘閱讀

時間回溯搜索:實現測試時生成式視頻推理

針對生成式視頻推理中單次生成的瓶頸,研究者提出時間回溯搜索(TBS),通過在時間軸上迭代生成-驗證-重啓循環,顯著提升了視頻模型在測試時的推理能力。實驗表明,TBS在算法、導航和機器人領域均優於同等預算的最佳N採樣,尤其在分佈外場景下,成功率從0.7%提升至22.7%。

來源arXiv Computer Vision作者: Sejoon Jun, Zheng Ding, Huangyuan Su, Weirui Ye, Yilun Du

儘管測試時計算擴展(test-time scaling)在大型語言模型中徹底革新了推理能力,但這一範式尚未成功應用於生成式視頻模型。目前,視頻生成主要依賴單次生成(one-shot)模式,缺乏對邏輯錯誤的有效修正機制。現有嘗試如搜索去噪步驟或根級最佳N採樣(Best-of-N, BoN)均存在明顯侷限:前者因為空間軌跡在擴散過程早期就已確定,無法挽救早期空間軌跡中的邏輯錯誤;後者則盲目地重新採樣,丟棄了已經驗證的進展,導致效率低下。

為了突破這一瓶頸,來自多所機構的研究人員提出了一種新方法——時間回溯搜索(Temporal Backtracking Search, TBS)。該方法將搜索空間從採樣空間轉移到時間軸,將視頻生成轉化為一個迭代的“生成-驗證-重啓”循環。TBS包含三個核心組件:可變K條件生成(variable-K conditioning),允許從任意乾淨的中間幀繼續生成,從而避免從頭開始;時間過程驗證(temporal process verification),能夠定位失敗幀並提取有效的重啓錨點;前綴搜索(prefix-based search),將計算資源重新分配給正確的軌跡分支,而不是重新採樣根節點。

研究者在算法推理、導航和機器人三個領域進行了大量實驗。結果顯示,TBS在同等預算下帕累託主導(Pareto-dominates)了最佳N採樣方法。特別是在嚴格的分佈外(out-of-distribution)場景中,當單次生成和BoN幾乎完全失效(成功率僅0.7%)時,TBS依然達到了22.7%的成功率,且所有成功的案例均源自重啓分支,證明了其強大的糾錯能力。

這項工作揭示了視頻模型在局部推理能力上遠超單次生成所展示的水平,提供了一種可擴展的測試時計算框架來充分釋放這一潛力。論文作者包括Sejoon Jun等五位研究人員,相關論文已提交至arXiv並可在線上獲取,DOI為10.48550/arXiv.2606.13861。