时间回溯搜索:实现测试时生成式视频推理
针对生成式视频推理中单次生成的瓶颈,研究者提出时间回溯搜索(TBS),通过在时间轴上迭代生成-验证-重启循环,显著提升了视频模型在测试时的推理能力。实验表明,TBS在算法、导航和机器人领域均优于同等预算的最佳N采样,尤其在分布外场景下,成功率从0.7%提升至22.7%。
尽管测试时计算扩展(test-time scaling)在大型语言模型中彻底革新了推理能力,但这一范式尚未成功应用于生成式视频模型。目前,视频生成主要依赖单次生成(one-shot)模式,缺乏对逻辑错误的有效修正机制。现有尝试如搜索去噪步骤或根级最佳N采样(Best-of-N, BoN)均存在明显局限:前者因为空间轨迹在扩散过程早期就已确定,无法挽救早期空间轨迹中的逻辑错误;后者则盲目地重新采样,丢弃了已经验证的进展,导致效率低下。
为了突破这一瓶颈,来自多所机构的研究人员提出了一种新方法——时间回溯搜索(Temporal Backtracking Search, TBS)。该方法将搜索空间从采样空间转移到时间轴,将视频生成转化为一个迭代的“生成-验证-重启”循环。TBS包含三个核心组件:可变K条件生成(variable-K conditioning),允许从任意干净的中间帧继续生成,从而避免从头开始;时间过程验证(temporal process verification),能够定位失败帧并提取有效的重启锚点;前缀搜索(prefix-based search),将计算资源重新分配给正确的轨迹分支,而不是重新采样根节点。
研究者在算法推理、导航和机器人三个领域进行了大量实验。结果显示,TBS在同等预算下帕累托主导(Pareto-dominates)了最佳N采样方法。特别是在严格的分布外(out-of-distribution)场景中,当单次生成和BoN几乎完全失效(成功率仅0.7%)时,TBS依然达到了22.7%的成功率,且所有成功的案例均源自重启分支,证明了其强大的纠错能力。
这项工作揭示了视频模型在局部推理能力上远超单次生成所展示的水平,提供了一种可扩展的测试时计算框架来充分释放这一潜力。论文作者包括Sejoon Jun等五位研究人员,相关论文已提交至arXiv并可在线上获取,DOI为10.48550/arXiv.2606.13861。