2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

RULER：机器学习遗忘的表示级验证

现有机器学习遗忘验证仅关注输出级指标，但模型内部表示可能仍保留遗忘数据。RULER提出表示级验证指标M2和M4，实验表明多种近似遗忘方法虽通过输出级评估，但在表示级检测中表现出显著残留。

来源arXiv AI作者: Georgina Cosma, Axel Finke

随着数据隐私法规的日益严格，机器学习遗忘（Machine Unlearning）——从已部署的模型中移除特定训练数据影响的技术——变得至关重要。然而，现有的验证方法主要关注输出级指标，如成员推断、保留准确率和遗忘集准确率。这些指标虽然易于测量，但本文作者指出，一个模型可以通过所有输出级测试，却仍然在其内部表示中编码被遗忘的记录。

来自的研究团队提出了RULER，一套表示级验证指标。其中包括两种核心度量：M2和M4。M2是一种基于Oracle比较的度量，它测量遗忘集记录在表示空间中的位置是否与在没有这些数据的情况下重新训练的模型中的位置一致。而M4则是一种无需Oracle的度量，仅通过未学习模型的内部相似性结构来检测残留。

研究团队在四种近似遗忘方法上进行了实验，所有方法均通过了输出级评估。然而，使用线性混合效应模型，M2在12种条件中的10种下检测到了显著残留（p<0.05），且效应大小随遗忘比例增加而增大。第五种方法Bad Teacher虽然使用了不同的遗忘机制，也表现出了相同的残留模式。M4则作为遗忘前诊断工具，在表格数据、图像、临床文本和人脸识别等多种场景中有效：它能够检测到人脸识别模型中身份级别的记忆化，而所有测试方法都无法完全擦除该信号。

这一发现具有重要意义：它揭示了当前机器学习遗忘验证中的盲点，并提供了更严格的评估标准。RULER不仅可用于验证遗忘效果，还能指导改进遗忘算法，确保用户数据的真正移除。未来，研究团队计划将RULER扩展到更广泛的模型架构和遗忘场景中。