2026-04-28 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

條件擴散模型中組合泛化的區域性機制

該研究探討了條件擴散模型如何在超出訓練分佈的組合條件下實現組合泛化，特別是長度泛化——生成比訓練時更多物件的影像。透過在CLEVR資料集上的實驗，發現模型在某些情況下能實現長度泛化，但並非總是如此。研究者提出並證明了區域性條件分數與特定組合結構（條件投影組合）之間的等價性，並驗證了區域性條件分數是成功泛化的關鍵。因果乾預實驗顯示，強制區域性條件分數可使原本失敗的模型實現長度泛化。在SDXL模型中，畫素空間存在空間區域性性但缺乏條件區域性性，然而在特徵空間中發現了區域性條件分數的證據。

來源Apple Machine Learning Research

Apple機器學習研究團隊發表了一篇論文，深入探討了條件擴散模型在組合泛化中的區域性機制。組合泛化指的是模型能夠為訓練中未見過的條件組合生成合理樣本的能力，而長度泛化則是其具體表現——生成比訓練資料中包含更多物件的影像。這項研究對於理解生成模型如何超越訓練資料分佈具有重要意義。

研究者在CLEVR資料集上進行了受控實驗，該資料集包含具有不同屬性（如顏色、形狀、大小）的3D物體影像。他們訓練了條件擴散模型，並以物體數量作為條件變數。實驗發現，長度泛化在某些情況下可以達成，但並非所有模型都能成功。例如，當訓練時最多包含3個物體，模型有時能生成包含4個或5個物體的影像，但有時卻失敗。這表明模型並未總是真正學會底層的組合結構，而是依賴於表面統計規律。

為了揭示背後的機制，研究團隊將注意力轉向了區域性性概念。此前的研究（Kamb & Ganguli, 2024; Niedoba et al., 2024）提出分數區域性性是無條件擴散模型創造性的機制，但未涉及靈活條件作用或組合泛化。本研究在此基礎上，證明了一種特定的組合結構（條件投影組合，Bradley et al., 2025）與同時依賴於畫素和條件器的稀疏分數（區域性條件分數）之間的精確等價關係。該理論還擴充套件到了特徵空間中的概念組合（如風格+內容），表明區域性性可能是一個更廣泛的原理。

實驗驗證了理論：成功實現長度泛化的CLEVR模型展現出區域性條件分數，即它們的得分函式在畫素和條件上只有稀疏依賴；而失敗的模型則表現出全域性依賴，得分函式對大量畫素和條件敏感。進一步地，透過因果乾預，研究團隊強制模型學習區域性條件分數，結果使一個原本失敗的模型成功實現了長度泛化。這直接證明了區域性條件分數是泛化的原因。

最後，研究者分析了當前最先進的文本到影像模型SDXL。他們發現在畫素空間中，空間區域性性存在（即畫素間的依賴是區域性的），但條件區域性性大多缺失——影像對文本描述的依賴是全域性的。然而，在網路的學得特徵空間中，定量證據表明存在區域性條件分數，說明模型在抽象層次上可能利用了區域性性。這一發現揭示了條件擴散模型實現組合泛化的重要內在機制，為未來設計更強大、更可解釋的生成模型提供了理論指導。