2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:59 UTC+8

HierBias：基於上下文的分層媒體偏差檢測與多任務類型分類

HierBias是一種新的分層上下文條件媒體偏差檢測器，通過建模文檔上下文來改進句子級偏差分類。理論證明利用上下文可降低貝葉斯誤差，多任務學習提高樣本效率。架構使用RoBERTa編碼器和跨句子Transformer，在BABE和BASIL數據集上達到0.853 F1和0.723 MCC，超過現有最優方法。

來源arXiv Computational Linguistics作者: Kaining Li, Ruichen Yan, Yuxin Dong

媒體偏差檢測對於確保信息傳播的公平與平衡至關重要。然而，現有的句子級方法單獨分類每個句子，忽略了人類標註者自然利用的跨句子上下文信號。針對這一問題，Kaining Li等人提出了HierBias，一種分層上下文條件媒體偏差檢測器，能夠形式化地在偏差預測中建模文檔上下文。

研究團隊引入了“上下文條件偏差概率”的概念，並從理論上證明，當句子間互信息非零時，利用文檔上下文可以嚴格降低句子級分類的貝葉斯誤差。此外，通過多任務泛化邊界，他們證明聯合訓練二元偏差檢測和細粒度偏差類型分類可以在小標註語料庫上提高樣本效率。

在架構上，HierBias結合了句子級RoBERTa編碼器和跨句子Transformer聚合器，並配備雙輸出頭，分別用於二元檢測和四類類型分類。在BABE和BASIL基準數據集上的評估顯示，HierBias取得了0.853的F1分數和0.723的MCC，分別比現有最優偏差檢測器高出2.6%和4.3%（McNemar檢驗，p<0.05）。消融實驗證實，每個理論組件都獨立且一致地發揮作用。

這一工作不僅提升了媒體偏差檢測的準確性，也為利用上下文信息進行更精細的分析提供了新的理論框架和實用工具。