用于从标签分布学习中度量依赖的标注饱和
当标注者之间存在分歧时,分歧本身携带有用信号,但捕捉该信号所需的标注者数量取决于评估指标。本文通过在ChaosNLI数据集上微调NLI模型,发现熵相关性需要20-50个标注者才能收敛,而KL散度在约10个标注者时达到饱和。软标签能够捕捉项目特定的分歧信号,而标签平滑无法做到这一点。研究建议标注预算应根据目标评估指标来设定,而非统一规定。
苹果机器学习研究团队发表了一项关于标注饱和度的新研究,揭示了评估指标对所需标注者数量的显著影响。该研究通过从ChaosNLI数据集中子采样标签分布,微调自然语言推理(NLI)模型,发现熵相关性——即模型识别哪些项目引发分歧的能力——需要大约20到50个标注者才能收敛,而分布匹配(KL散度)在约10个标注者时即达到饱和,在五个模型种子中实现了87%到95%的改进。这一发现基于一个重要的先验观察:软标签携带了项目特定的信号,而标签平滑无法复制这种信号。在五种不同的平滑强度下,熵相关性聚类在r≈0.45-0.49,而软标签达到了r=0.643(p<0.001);逐项分析表明,这一差距源于标签平滑无法区分模糊项目和清晰项目。软标签的优势在两种架构(DeBERTa、RoBERTa)、非NLI预训练基线以及内容安全的探索性跨领域评估中均得到了复现。这些结果强烈表明,标注预算应根据目标评估指标来制定,而非采用统一的固定标准。该研究为实际应用中如何更高效地利用标注资源提供了重要指导。