2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:59 UTC+8

HierBias：基於上下文的分層媒體偏差檢測與多工型別分類

HierBias是一種新的分層上下文條件媒體偏差檢測器，透過建模文件上下文來改進句子級偏差分類。理論證明利用上下文可降低貝葉斯誤差，多工學習提高樣本效率。架構使用RoBERTa編碼器和跨句子Transformer，在BABE和BASIL資料集上達到0.853 F1和0.723 MCC，超過現有最優方法。

來源arXiv Computational Linguistics作者: Kaining Li, Ruichen Yan, Yuxin Dong

媒體偏差檢測對於確保資訊傳播的公平與平衡至關重要。然而，現有的句子級方法單獨分類每個句子，忽略了人類標註者自然利用的跨句子上下文訊號。針對這一問題，Kaining Li等人提出了HierBias，一種分層上下文條件媒體偏差檢測器，能夠形式化地在偏差預測中建模文件上下文。

研究團隊引入了“上下文條件偏差機率”的概念，並從理論上證明，當句子間互資訊非零時，利用文件上下文可以嚴格降低句子級分類的貝葉斯誤差。此外，透過多工泛化邊界，他們證明聯合訓練二元偏差檢測和細粒度偏差型別分類可以在小標註語料庫上提高樣本效率。

在架構上，HierBias結合了句子級RoBERTa編碼器和跨句子Transformer聚合器，並配備雙輸出頭，分別用於二元檢測和四類型別分類。在BABE和BASIL基準資料集上的評估顯示，HierBias取得了0.853的F1分數和0.723的MCC，分別比現有最優偏差檢測器高出2.6%和4.3%（McNemar檢驗，p<0.05）。消融實驗證實，每個理論元件都獨立且一致地發揮作用。

這一工作不僅提升了媒體偏差檢測的準確性，也為利用上下文資訊進行更精細的分析提供了新的理論框架和實用工具。