AI News HubLIVE
站内改写1 分鐘閱讀

機器學習遺忘審計新框架

Google研究人員提出正則化f-散度核檢驗框架,用於審計機器學習模型的遺忘和隱私保護。該框架自適應選擇最優散度度量,能夠更敏感地檢測資料洩露和遺忘失敗,且所需樣本更少,調參更少。

隨著人工智慧模型處理的資料量日益龐大且高度敏感,驗證機器學習模型是否成功“遺忘”特定資料已成為一項嚴格的要求。傳統的驗證方法,如雙樣本檢驗,在模型規模增大時面臨統計功效下降、需要大量樣本以及難以選擇合適度量等挑戰。為此,Google Research的研究團隊在AISTATS 2026上提出了一種名為“正則化f-散度核檢驗”的新框架。

該框架的核心在於利用f-散度族來度量兩個資料分佈之間的差異。與傳統的最大均值差異(MMD)相比,f-散度能夠更精確地捕捉區域性異常,例如模型在特定提示下產生的異常輸出。框架內建了多種散度,包括卡方散度、KL散度以及專為隱私和遺忘定義的曲棍球棒散度,並透過自適應機制自動選擇最適合當前任務的散度和超引數組合,極大地減少了人工調參的工作量。

在實驗中,研究團隊將該框架應用於差分隱私審計和機器學習遺忘評估。在隱私審計方面,曲棍球棒散度檢驗與純差分隱私的數學基礎直接對齊,能夠以遠少於傳統方法的樣本量檢測出隱私洩露。例如,在檢測稀疏向量技術機制(SVT3)的違規時,新框架僅需數千樣本,而DP-Auditorium需要數百萬樣本。

在遺忘評估方面,研究團隊發現傳統的雙樣本檢驗容易將因重新訓練方式不同而產生的分佈差異誤判為遺忘失敗,產生假陽性。為此,他們提出了一種相對三樣本檢驗:比較遺忘模型與安全重訓練模型以及原始模型之間的距離。實驗表明,只有精確重訓練的模型和隨機標籤技術透過了檢驗,而微調、剪枝和選擇性突觸抑制等方法未能真正遺忘目標資料。

該框架為機器學習行為審計提供了更精確、更靈活且數學上更嚴謹的工具。研究團隊表示,未來工作將探索針對特定任務的最優散度選擇,並進一步將理論結論與實證觀察相結合。這一成果對於遵守GDPR等隱私法規、提升AI安全性具有重要意義。