学习何时去噪:优化潜扩散的异步调度
本文提出了一种学习异步调度的方法,用于多表示潜扩散模型。通过调度校正的目标函数和快速联合探针,学习凸且单调的调度参数。在ImageNet 256x256上,仅用200个epoch达到FID 1.05(匹配800个epoch的SFD-XL),600个epoch达到FID 1.02(超越1B参数的SFD-XXL)。无引导设置下也取得显著提升。
多表示扩散模型通过同时去噪图像的多个互补表示(例如由变分自编码器提取的潜在特征)来提升视觉合成质量。每个表示的去噪时机由异步调度决定,而传统的固定调度策略往往无法充分发挥模型潜力。来自arXiv的一篇新论文提出了一种学习这种调度的方法,从而优化模型性能。
研究者们将问题形式化为在多个表示空间上的异步流匹配过程,并设计了一种调度校正的目标函数。该函数的关键在于,当调度发生变化时,每个表示的局部噪声时间权重保持不变,从而保证了训练的一致性。调度本身通过一种灵活的参数类实现,该类在结构上保证了凸性和单调性,并通过一种快速联合探针进行学习,这仅需要不到1%的额外计算量。
在ImageNet 256x256数据集上,使用675M参数的XL骨干网络,学习得到的调度显著提升了收敛速度和最终生成质量。在AutoGuidance(自动引导)设置下,仅训练200个epoch的模型就达到了FID 1.05,与训练800个epoch的SFD-XL基线结果持平,但训练量减少了4倍。当训练延长至600个epoch时,FID进一步降至1.02,甚至超越了拥有10亿参数的SFD-XXL模型(FID 1.04)。在不使用引导的无引导设置下,200个epoch的模型FID为2.37,已经低于最佳800个epoch SFD-XL的2.54,且600个epoch时达到2.14,展示了该方法的强劲性能。
这些结果表明,通过学习异步调度,可以在更少的训练成本下获得更优的图像生成质量。该研究的代码已开源在GitHub上,为后续研究提供了便利,也为多表示扩散模型的训练开辟了新方向。此外,论文还讨论了调度参数的可解释性以及与其他扩散模型的兼容性。作者指出,这一方法不仅适用于图像生成,还可能扩展到其他需要多模态或异步处理的领域。随着扩散模型在图像、视频乃至文本生成中的广泛应用,学习调度策略有望成为提升模型效率和效果的重要工具。未来工作包括探索更复杂的调度参数化方法以及将学习调度应用于视频扩散模型。研究者表示,该框架具有通用性,可以适配不同的基座模型和表示空间。该论文的发表有望推动社区对扩散模型训练动态的更深入理解,并为高效生成高质量图像提供新的思路。