条件扩散模型中组合泛化的局部机制
该研究探讨了条件扩散模型如何在超出训练分布的组合条件下实现组合泛化,特别是长度泛化——生成比训练时更多对象的图像。通过在CLEVR数据集上的实验,发现模型在某些情况下能实现长度泛化,但并非总是如此。研究者提出并证明了局部条件分数与特定组合结构(条件投影组合)之间的等价性,并验证了局部条件分数是成功泛化的关键。因果干预实验显示,强制局部条件分数可使原本失败的模型实现长度泛化。在SDXL模型中,像素空间存在空间局部性但缺乏条件局部性,然而在特征空间中发现了局部条件分数的证据。
Apple机器学习研究团队发表了一篇论文,深入探讨了条件扩散模型在组合泛化中的局部机制。组合泛化指的是模型能够为训练中未见过的条件组合生成合理样本的能力,而长度泛化则是其具体表现——生成比训练数据中包含更多对象的图像。这项研究对于理解生成模型如何超越训练数据分布具有重要意义。
研究者在CLEVR数据集上进行了受控实验,该数据集包含具有不同属性(如颜色、形状、大小)的3D物体图像。他们训练了条件扩散模型,并以物体数量作为条件变量。实验发现,长度泛化在某些情况下可以达成,但并非所有模型都能成功。例如,当训练时最多包含3个物体,模型有时能生成包含4个或5个物体的图像,但有时却失败。这表明模型并未总是真正学会底层的组合结构,而是依赖于表面统计规律。
为了揭示背后的机制,研究团队将注意力转向了局部性概念。此前的研究(Kamb & Ganguli, 2024; Niedoba et al., 2024)提出分数局部性是无条件扩散模型创造性的机制,但未涉及灵活条件作用或组合泛化。本研究在此基础上,证明了一种特定的组合结构(条件投影组合,Bradley et al., 2025)与同时依赖于像素和条件器的稀疏分数(局部条件分数)之间的精确等价关系。该理论还扩展到了特征空间中的概念组合(如风格+内容),表明局部性可能是一个更广泛的原理。
实验验证了理论:成功实现长度泛化的CLEVR模型展现出局部条件分数,即它们的得分函数在像素和条件上只有稀疏依赖;而失败的模型则表现出全局依赖,得分函数对大量像素和条件敏感。进一步地,通过因果干预,研究团队强制模型学习局部条件分数,结果使一个原本失败的模型成功实现了长度泛化。这直接证明了局部条件分数是泛化的原因。
最后,研究者分析了当前最先进的文本到图像模型SDXL。他们发现在像素空间中,空间局部性存在(即像素间的依赖是局部的),但条件局部性大多缺失——图像对文本描述的依赖是全局的。然而,在网络的学得特征空间中,定量证据表明存在局部条件分数,说明模型在抽象层次上可能利用了局部性。这一发现揭示了条件扩散模型实现组合泛化的重要内在机制,为未来设计更强大、更可解释的生成模型提供了理论指导。