2026-06-16站内改写2 分钟阅读更新: 2026-06-16

使用受控污染评估实例相关标签噪声

本文提出CILN框架，通过受控输入污染生成实例相关噪声（IDN），使模糊性来源显式可控。在CIFAR-10、MNIST和Adult上构建了90个基准设置，证明了噪声结构（而非仅噪声率）对基准难度和算法行为的重要影响，并揭示了流行噪声标签学习方法（如Co-Teaching和DivideMix）的失败模式。

来源arXiv Machine Learning作者: Shadman Islam, Agustinus Kristiadi, Mostafa Milani

在机器学习领域，噪声标签学习（Noisy-Label Learning）是一个长期存在的挑战。实际数据集中，由于标注者能力不足或数据本身模糊，标签往往包含噪声。为了研究噪声对模型的影响，研究人员通常使用合成噪声基准，其中实例相关噪声（Instance-Dependent Noise, IDN）被认为更贴近现实，因为噪声概率依赖于输入特征。然而，现有合成IDN方法通常依赖不完美的标注者或分类器评分器来生成噪声，这使得噪声的模糊性来源变得隐式且难以控制。

针对这一问题，最新发表在arXiv上的论文《Benchmarking Instance-Dependent Label Noise with Controlled Corruptions》提出了CILN框架。CILN的核心思想是通过受控的输入污染来生成IDN。具体来说，论文设计了一个多样化的投票者池，这些投票者（可以理解为不同的分类器或规则）对经过不同程度污染（如高斯噪声、遮挡等）的实例进行标注。投票结果产生标签分布，从而生成一组基准数据集，在这些数据集中，模糊性的来源（污染类型）和严重程度（污染强度）都是显式且可控的。

为了验证CILN的有效性，论文在CIFAR-10、MNIST和Adult三个经典数据集上构建了90个不同的基准设置，涵盖了多种污染家族（如像素级噪声、语义扰动等）和多个严重级别。实验结果显示，CILN生成的基准表现出了真正的实例相关噪声特性，其混淆结构比现有方法更加多样化。特别地，在CIFAR-10上，CILN生成的标签分布比现有的一个合成IDN基准更接近人类标注的不确定性，这进一步证实了其真实性。

一个更加引人注目的发现是，CILN生成的噪声能够揭示当前流行噪声标签学习方法（如Co-Teaching和DivideMix）的失败模式。这些失败模式在同等噪声率但基于评分器错误的噪声下并未出现。这清楚地表明，噪声的结构（即噪声类型和分布）而不是单纯的噪声率，在决定基准难度和算法行为中起着至关重要的作用。

CILN的意义在于它为噪声标签学习研究提供了一个补充性的基准生成框架。通过显式地控制模糊性的生成，研究人员可以更系统地研究不同实例困难来源（如模糊性、歧义性）对算法的影响。这有望推动更鲁棒的噪声标签学习方法的发展。该论文已被提交至会议，并将在arXiv上公开，代码预计也将开源，便于后续研究复现和扩展。