通过设计实现最优传输流匹配
本文提出一种新的最优传输流匹配方法,通过将先验视为设计选择而非固定输入,避免了高维最优传输耦合的计算难题。作者发现自然图像的低频投影可作为先验,与数据形成最优传输恒等耦合,从而将流匹配任务简化为合成高频细节。该方法无需修改流模型本身,即可与潜在空间模型、无分类器引导和单步生成框架自然集成。在多个基准测试中,轨迹曲率降低超过2倍,少步生成质量显著提升。
研究人员提出了一种名为“最优传输流匹配设计”的新方法,旨在解决生成模型中流匹配的计算难题。传统流匹配模型通过学习从简单先验分布到复杂数据分布的传输,当通过最优传输(OT)耦合先验-数据对时,学习到的轨迹是直线且不相交的,从而实现快速甚至单步生成。然而,在高维空间中计算最优传输耦合是棘手的,现有方法往往存在偏差或计算开销大。
该工作的核心创新在于重新审视问题:将先验视为可设计的选择而非固定输入。一旦先验成为设计变量,先验与数据之间的最优传输耦合就不再唯一。许多先验允许与数据建立最优传输恒等耦合,因此可以选择一个既易采样又保持最优传输特性的先验。研究人员发现,自然图像的低频投影正是这样的选择——数据与其低频表示之间的恒等耦合在经验上是最优传输最优的,先验结构足够简单,可由轻量级模型在推理时采样,而剩余的流匹配任务只需合成高频细节。
此外,将先验与高斯噪声插值可在保持最优传输耦合的同时进一步提升生成质量。该方法无需对现有流模型进行任何修改,并能自然地与潜在空间模型、无分类器引导和单步生成框架结合。在多个基准测试中,该方法将轨迹曲率降低了2倍以上,在少步生成场景下取得了更优的质量。