幾何感知表格擴散模型
本文提出幾何感知表格擴散模型(GATD),透過向擴散去噪器注入列值差異計算的成對角度和長度作為輸入和輔助目標,顯式捕獲表格資料中的列間關係。MLP例項在10個資料集上以平均3.5倍更少引數(分類任務達25倍)達到最先進效能,分別贏得8/10的形狀、7/10的趨勢和9/10的下游效用指標,形狀和趨勢誤差分別降低27%和20%。預設損失權重可遷移至GNN和Transformer去噪器,在27/30和25/30架構-資料集單元上改善形狀和趨勢。消融實驗證明增益來自顯式關係監督而非額外輸入或容量。該工作表明顯式關係監督是表格擴散的可遷移歸納偏置。
近日,一篇被ICML 2026接收的論文提出了幾何感知表格擴散模型(Geometry-Aware Tabular Diffusion, GATD),旨在解決表格資料合成中列間關係建模的難題。表格資料合成在隱私保護的資料共享和增強中至關重要,但現有擴散模型主要依賴隱式機制來捕獲列間關係,效果有限。
GATD的核心創新在於向擴散去噪器中注入顯式的幾何資訊。具體來說,它透過計算不同列值之間的差異,得到成對的角度和長度,並將這些幾何特徵同時作為網路輸入和輔助訓練目標。這種方法使得模型能夠更直接地學習和利用表格資料的結構,從而生成更真實的資料。
研究團隊基於MLP實現了GATD,並在十個基準資料集上進行了全面評估。結果顯示,MLP例項在平均引數數量僅為其他方法的3.5倍(分類任務甚至達到25倍)的情況下,取得了最先進的效能:在形狀(Shape)、趨勢(Trend)和下游任務效用(F1/RMSE)指標上分別贏得了8/10、7/10和9/10的資料集,形狀和趨勢誤差分別降低了27%和20%。值得注意的是,GATD的預設損失權重可以無縫遷移到GNN和Transformer等不同架構的去噪器上,在27/30和25/30的架構-資料集組合中改善了形狀和趨勢效能。
匹配消融實驗證實,效能提升主要歸功於顯式的監督訊號,而非額外的輸入或模型容量。這揭示了顯式關係監督是一種可移植的歸納偏置,未來有望廣泛應用於各類表格擴散任務。論文程式碼已公開,為社群提供了復現和進一步研究的基礎。該研究為表格資料生成領域提供了新的思路,證明了將領域知識顯式編碼到生成模型中的有效性。