几何感知表格扩散模型
本文提出几何感知表格扩散模型(GATD),通过向扩散去噪器注入列值差异计算的成对角度和长度作为输入和辅助目标,显式捕获表格数据中的列间关系。MLP实例在10个数据集上以平均3.5倍更少参数(分类任务达25倍)达到最先进性能,分别赢得8/10的形状、7/10的趋势和9/10的下游效用指标,形状和趋势误差分别降低27%和20%。默认损失权重可迁移至GNN和Transformer去噪器,在27/30和25/30架构-数据集单元上改善形状和趋势。消融实验证明增益来自显式关系监督而非额外输入或容量。该工作表明显式关系监督是表格扩散的可迁移归纳偏置。
近日,一篇被ICML 2026接收的论文提出了几何感知表格扩散模型(Geometry-Aware Tabular Diffusion, GATD),旨在解决表格数据合成中列间关系建模的难题。表格数据合成在隐私保护的数据共享和增强中至关重要,但现有扩散模型主要依赖隐式机制来捕获列间关系,效果有限。
GATD的核心创新在于向扩散去噪器中注入显式的几何信息。具体来说,它通过计算不同列值之间的差异,得到成对的角度和长度,并将这些几何特征同时作为网络输入和辅助训练目标。这种方法使得模型能够更直接地学习和利用表格数据的结构,从而生成更真实的数据。
研究团队基于MLP实现了GATD,并在十个基准数据集上进行了全面评估。结果显示,MLP实例在平均参数数量仅为其他方法的3.5倍(分类任务甚至达到25倍)的情况下,取得了最先进的性能:在形状(Shape)、趋势(Trend)和下游任务效用(F1/RMSE)指标上分别赢得了8/10、7/10和9/10的数据集,形状和趋势误差分别降低了27%和20%。值得注意的是,GATD的默认损失权重可以无缝迁移到GNN和Transformer等不同架构的去噪器上,在27/30和25/30的架构-数据集组合中改善了形状和趋势性能。
匹配消融实验证实,性能提升主要归功于显式的监督信号,而非额外的输入或模型容量。这揭示了显式关系监督是一种可移植的归纳偏置,未来有望广泛应用于各类表格扩散任务。论文代码已公开,为社区提供了复现和进一步研究的基础。该研究为表格数据生成领域提供了新的思路,证明了将领域知识显式编码到生成模型中的有效性。