2026-06-23 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-23 22:02 UTC+8

用于从标签分布学习中度量依赖的标注饱和

当标注者之间存在分歧时，分歧本身携带有用信号，但捕捉该信号所需的标注者数量取决于评估指标。本文通过在ChaosNLI数据集上微调NLI模型，发现熵相关性需要20-50个标注者才能收敛，而KL散度在约10个标注者时达到饱和。软标签能够捕捉项目特定的分歧信号，而标签平滑无法做到这一点。研究建议标注预算应根据目标评估指标来设定，而非统一规定。

来源Apple Machine Learning Research

苹果机器学习研究团队发表了一项关于标注饱和度的新研究，揭示了评估指标对所需标注者数量的显著影响。该研究通过从ChaosNLI数据集中子采样标签分布，微调自然语言推理（NLI）模型，发现熵相关性——即模型识别哪些项目引发分歧的能力——需要大约20到50个标注者才能收敛，而分布匹配（KL散度）在约10个标注者时即达到饱和，在五个模型种子中实现了87%到95%的改进。这一发现基于一个重要的先验观察：软标签携带了项目特定的信号，而标签平滑无法复制这种信号。在五种不同的平滑强度下，熵相关性聚类在r≈0.45-0.49，而软标签达到了r=0.643（p<0.001）；逐项分析表明，这一差距源于标签平滑无法区分模糊项目和清晰项目。软标签的优势在两种架构（DeBERTa、RoBERTa）、非NLI预训练基线以及内容安全的探索性跨领域评估中均得到了复现。这些结果强烈表明，标注预算应根据目标评估指标来制定，而非采用统一的固定标准。该研究为实际应用中如何更高效地利用标注资源提供了重要指导。