AI News HubLIVE
站内改写1 分鐘閱讀

時間回溯搜尋:實現測試時生成式影片推理

針對生成式影片推理中單次生成的瓶頸,研究者提出時間回溯搜尋(TBS),透過在時間軸上迭代生成-驗證-重啟迴圈,顯著提升了影片模型在測試時的推理能力。實驗表明,TBS在演算法、導航和機器人領域均優於同等預算的最佳N取樣,尤其在分佈外場景下,成功率從0.7%提升至22.7%。

來源arXiv Computer Vision作者: Sejoon Jun, Zheng Ding, Huangyuan Su, Weirui Ye, Yilun Du

儘管測試時計算擴充套件(test-time scaling)在大型語言模型中徹底革新了推理能力,但這一正規化尚未成功應用於生成式影片模型。目前,影片生成主要依賴單次生成(one-shot)模式,缺乏對邏輯錯誤的有效修正機制。現有嘗試如搜尋去噪步驟或根級最佳N取樣(Best-of-N, BoN)均存在明顯侷限:前者因為空間軌跡在擴散過程早期就已確定,無法挽救早期空間軌跡中的邏輯錯誤;後者則盲目地重新取樣,丟棄了已經驗證的進展,導致效率低下。

為了突破這一瓶頸,來自多所機構的研究人員提出了一種新方法——時間回溯搜尋(Temporal Backtracking Search, TBS)。該方法將搜尋空間從取樣空間轉移到時間軸,將影片生成轉化為一個迭代的“生成-驗證-重啟”迴圈。TBS包含三個核心元件:可變K條件生成(variable-K conditioning),允許從任意乾淨的中間幀繼續生成,從而避免從頭開始;時間過程驗證(temporal process verification),能夠定位失敗幀並提取有效的重啟錨點;字首搜尋(prefix-based search),將計算資源重新分配給正確的軌跡分支,而不是重新取樣根節點。

研究者在演算法推理、導航和機器人三個領域進行了大量實驗。結果顯示,TBS在同等預算下帕累託主導(Pareto-dominates)了最佳N取樣方法。特別是在嚴格的分佈外(out-of-distribution)場景中,當單次生成和BoN幾乎完全失效(成功率僅0.7%)時,TBS依然達到了22.7%的成功率,且所有成功的案例均源自重啟分支,證明了其強大的糾錯能力。

這項工作揭示了影片模型在區域性推理能力上遠超單次生成所展示的水平,提供了一種可擴充套件的測試時計算框架來充分釋放這一潛力。論文作者包括Sejoon Jun等五位研究人員,相關論文已提交至arXiv並可線上上獲取,DOI為10.48550/arXiv.2606.13861。