2026-06-23 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-23 22:02 UTC+8

用於從標籤分佈學習中度量依賴的標註飽和

當標註者之間存在分歧時，分歧本身攜帶有用信號，但捕捉該信號所需的標註者數量取決於評估指標。本文通過在ChaosNLI數據集上微調NLI模型，發現熵相關性需要20-50個標註者才能收斂，而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉項目特定的分歧信號，而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定，而非統一規定。

來源Apple Machine Learning Research

蘋果機器學習研究團隊發表了一項關於標註飽和度的新研究，揭示了評估指標對所需標註者數量的顯著影響。該研究通過從ChaosNLI數據集中子採樣標籤分佈，微調自然語言推理（NLI）模型，發現熵相關性——即模型識別哪些項目引發分歧的能力——需要大約20到50個標註者才能收斂，而分佈匹配（KL散度）在約10個標註者時即達到飽和，在五個模型種子中實現了87%到95%的改進。這一發現基於一個重要的先驗觀察：軟標籤攜帶了項目特定的信號，而標籤平滑無法複製這種信號。在五種不同的平滑強度下，熵相關性聚類在r≈0.45-0.49，而軟標籤達到了r=0.643（p<0.001）；逐項分析表明，這一差距源於標籤平滑無法區分模糊項目和清晰項目。軟標籤的優勢在兩種架構（DeBERTa、RoBERTa）、非NLI預訓練基線以及內容安全的探索性跨領域評估中均得到了復現。這些結果強烈表明，標註預算應根據目標評估指標來制定，而非採用統一的固定標準。該研究為實際應用中如何更高效地利用標註資源提供了重要指導。