幾何学認識テーブル拡散
本論文では、テーブル拡散モデルに列値の差から計算したペアごとの角度と長さを入力および補助ターゲットとして追加するGeometry-Aware Tabular Diffusion(GATD)を提案する。MLP実装は平均3.5倍(分類タスクでは最大25倍)少ないパラメータで最先端のベンチマーク性能を達成し、10データセット中8/10のShape、7/10のTrend、9/10の下流ユーティリティ(F1/RMSE)で勝利し、Shapeエラーを27%、Trendエラーを20%削減した。デフォルトの損失重みはGNNおよびTransformerデノイザーに転送可能であり、27/30のアーキテクチャ・データセットセルでShape、25/30でTrendを改善した。マッチドアブレーションは、追加入力や容量ではなく監視が利得を生むことを示している。これは、明示的な関係監視がテーブル拡散のポータブルな帰納的バイアスであることを示している。
最近、ICML 2026に採択された研究で、Geometry-Aware Tabular Diffusion(GATD)が提案され、テーブルデータ合成の品質と効率の向上が図られました。テーブルデータ合成はプライバシー保護の共有やデータ拡張に不可欠ですが、既存の拡散モデルは列間関係を暗黙的にしか捉えられず、限界がありました。
GATDの主な革新は、拡散デノイザーに明示的な幾何学情報を注入することです。具体的には、異なる列値の差からペアごとの角度と長さを計算し、これらをネットワーク入力と補助訓練目標の両方として使用します。これにより、モデルはテーブルデータの構造をより直接的に理解し、よりリアルなデータを生成できるようになります。
研究チームはMLPベースのGATDを実装し、10のベンチマークデータセットで評価しました。その結果、MLPインスタンスは平均パラメータ数が他手法の3.5倍(分類タスクでは最大25倍)少ないにもかかわらず、最先端の性能を達成しました。Shape、Trend、下流タスクユーティリティ(F1/RMSE)の各指標で、それぞれ10データセット中8、7、9で最良となり、Shapeエラーを27%、Trendエラーを20%削減しました。さらに、GATDのデフォルト損失重みがGNNやTransformerなど異なるアーキテクチャのデノイザーにシームレスに転送可能であることが示され、27/30のアーキテクチャ・データセットセルでShapeが、25/30でTrendが改善されました。
マッチドアブレーション実験により、性能向上は追加入力やモデル容量ではなく、明示的な監視信号によるものであることが確認されました。これは、明示的な関係監視がテーブル拡散のポータブルな帰納的バイアスであることを示しています。本研究はテーブルデータ生成の分野に新たな方向性を示し、ドメイン知識を生成モデルに明示的にエンコードする有効性を証明しました。論文のコードは公開されており、詳細な実験設定と結果分析が提供されています。