AI News HubLIVE
站內改寫1 分鐘閱讀

用於從標籤分佈學習中度量依賴的標註飽和

當標註者之間存在分歧時,分歧本身攜帶有用信號,但捕捉該信號所需的標註者數量取決於評估指標。本文通過在ChaosNLI數據集上微調NLI模型,發現熵相關性需要20-50個標註者才能收斂,而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉項目特定的分歧信號,而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定,而非統一規定。

蘋果機器學習研究團隊發表了一項關於標註飽和度的新研究,揭示了評估指標對所需標註者數量的顯著影響。該研究通過從ChaosNLI數據集中子採樣標籤分佈,微調自然語言推理(NLI)模型,發現熵相關性——即模型識別哪些項目引發分歧的能力——需要大約20到50個標註者才能收斂,而分佈匹配(KL散度)在約10個標註者時即達到飽和,在五個模型種子中實現了87%到95%的改進。這一發現基於一個重要的先驗觀察:軟標籤攜帶了項目特定的信號,而標籤平滑無法複製這種信號。在五種不同的平滑強度下,熵相關性聚類在r≈0.45-0.49,而軟標籤達到了r=0.643(p<0.001);逐項分析表明,這一差距源於標籤平滑無法區分模糊項目和清晰項目。軟標籤的優勢在兩種架構(DeBERTa、RoBERTa)、非NLI預訓練基線以及內容安全的探索性跨領域評估中均得到了復現。這些結果強烈表明,標註預算應根據目標評估指標來制定,而非採用統一的固定標準。該研究為實際應用中如何更高效地利用標註資源提供了重要指導。