機械学習の忘却監査のための新しいフレームワーク
Googleの研究者が、機械学習モデルの忘却とプライバシー保護を監査するための「正則化f-ダイバージェンスカーネル検定」フレームワークを提案。適応的に最適なダイバージェンスを選択し、データ漏洩や忘却の失敗をより感度高く検出でき、必要なサンプル数やチューニングが少ない。
AIモデルが扱うデータの大規模化と高機密化に伴い、機械学習モデルが特定のトレーニングデータを正しく「忘却」したことを検証する必要性が高まっている。従来の二標本検定はモデルが巨大化すると統計的検出力が低下し、多くのサンプルが必要で、適切な距離尺度の選択も困難だった。これに対し、Google Researchの研究チームはAISTATS 2026で「正則化f-ダイバージェンスカーネル検定」という新しいフレームワークを発表した。
このフレームワークの核心は、f-ダイバージェンス族を用いて二つのデータ分布間の差異を測定することにある。従来の最大平均不一致(MMD)と比較して、f-ダイバージェンスは局所的な異常をより正確に捉えられる。フレームワークにはカイ二乗、KL、そしてプライバシーと忘却のために定義されたホッキースティック・ダイバージェンスが組み込まれており、適応的メカニズムがタスクに最適なダイバージェンスとハイパーパラメータを自動選択するため、手動調整の手間が大幅に削減される。
実験では、このフレームワークを差分プライバシーの監査と機械学習の忘却評価に適用した。プライバシー監査では、ホッキースティック・ダイバージェンス検定が純粋な差分プライバシーの数学的基盤と直接整合し、従来法よりはるかに少ないサンプルでプライバシー漏洩を検出できた。例えば、スパースベクトル技術機構(SVT3)の違反検出では、数千サンプルで十分だったのに対し、DP-Auditoriumは数百万サンプルを必要とした。
忘却評価では、従来の二標本検定は再トレーニング方法の違いによる分布の差異を忘却の失敗と誤判定しやすいことが判明した。そこで研究チームは相対三標本検定を提案し、忘却モデルと安全な再トレーニングモデル、および元のモデルとの距離を比較した。実験の結果、正確な再トレーニングモデルとランダムラベル手法のみが検定を通過し、ファインチューニング、剪定、選択的シナプス減衰などの手法は対象データを真に忘却できていないことが示された。
このフレームワークは、機械学習行動監査のためのより精密で柔軟かつ数学的に厳密なツールを提供する。研究チームは今後、特定タスクに最適なダイバージェンスの理論的特徴付けを進め、実証結果と理論を統合する計画である。この成果はGDPRなどのプライバシー規制への準拠とAI安全性の向上に貢献する。