2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 15:59 UTC+8

HierBias：基于上下文的分层媒体偏差检测与多任务类型分类

HierBias是一种新的分层上下文条件媒体偏差检测器，通过建模文档上下文来改进句子级偏差分类。理论证明利用上下文可降低贝叶斯误差，多任务学习提高样本效率。架构使用RoBERTa编码器和跨句子Transformer，在BABE和BASIL数据集上达到0.853 F1和0.723 MCC，超过现有最优方法。

来源arXiv Computational Linguistics作者: Kaining Li, Ruichen Yan, Yuxin Dong

媒体偏差检测对于确保信息传播的公平与平衡至关重要。然而，现有的句子级方法单独分类每个句子，忽略了人类标注者自然利用的跨句子上下文信号。针对这一问题，Kaining Li等人提出了HierBias，一种分层上下文条件媒体偏差检测器，能够形式化地在偏差预测中建模文档上下文。

研究团队引入了“上下文条件偏差概率”的概念，并从理论上证明，当句子间互信息非零时，利用文档上下文可以严格降低句子级分类的贝叶斯误差。此外，通过多任务泛化边界，他们证明联合训练二元偏差检测和细粒度偏差类型分类可以在小标注语料库上提高样本效率。

在架构上，HierBias结合了句子级RoBERTa编码器和跨句子Transformer聚合器，并配备双输出头，分别用于二元检测和四类类型分类。在BABE和BASIL基准数据集上的评估显示，HierBias取得了0.853的F1分数和0.723的MCC，分别比现有最优偏差检测器高出2.6%和4.3%（McNemar检验，p<0.05）。消融实验证实，每个理论组件都独立且一致地发挥作用。

这一工作不仅提升了媒体偏差检测的准确性，也为利用上下文信息进行更精细的分析提供了新的理论框架和实用工具。