2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:10 UTC+8

使用基于Transformer的模型结合类别加权和阈值调优实现多语言极化检测

本研究提交至SemEval-2026任务9，旨在检测多语言、多文化、多事件的在线极化现象。作者采用基于Transformer的模型（英语用RoBERTa-base，斯瓦希里语用AfroXLMR-base），结合类别加权损失函数处理严重标签不平衡，并通过逐标签阈值调优优化多标签分类。在测试集上，任务1的F1宏观分数英语为0.7901，斯瓦希里语为0.7910；任务2分别为0.4615和0.4808；任务3分别为0.4791和0.5830，在排行榜上表现有竞争力。错误分析显示模型在非人化检测和共情缺失方面存在困难。

来源arXiv Computational Linguistics作者: Aaron Bundi Anampiu

近日，一篇提交至SemEval-2026任务9的论文提出了一种基于Transformer模型的多语言极化检测方法，旨在识别多语言、多文化和多事件背景下的在线极化现象。该研究由Aaron Bundi Anampiu独立完成，论文编号arXiv:2606.30857，于2026年6月29日提交至arXiv预印本平台。

研究聚焦于三个子任务：二值极化检测（Subtask 1）、极化类型分类（Subtask 2）和极化表现识别（Subtask 3），数据集涵盖英语和斯瓦希里语两种语言。针对标签严重不平衡这一核心挑战，作者采用了类别加权损失函数，为少数类赋予更高权重，从而缓解模型对多数类的偏向。此外，为了优化多标签分类性能，研究引入了逐标签阈值调优策略，即为每个标签独立调整决策阈值，而非使用全局统一阈值。

在模型选择上，英语任务使用了RoBERTa-base模型，而斯瓦希里语任务则采用了AfroXLMR-base模型，后者是针对非洲语言优化的多语言Transformer模型。实验结果显示，该方法在三个子任务上均取得了有竞争力的成绩：Subtask 1的F1宏观分数英语为0.7901，斯瓦希里语为0.7910；Subtask 2分别为0.4615和0.4808；Subtask 3分别为0.4791和0.5830。这些分数表明，结合类别加权和阈值调优能够有效处理多标签极化检测中的不平衡问题，并在排行榜上占据有利位置。

然而，进一步的错误分析揭示了模型的局限性。研究指出，模型在检测非人化（dehumanization）和共情缺失（lack of empathy）这两种细微极化表现时表现不佳。这暗示当前Transformer模型对社会情感信号的捕捉能力仍有不足，未来可能需要通过更精细的特征工程、引入外部常识知识或设计专门的损失函数来增强模型对这些维度的敏感度。

该研究为多语言社交媒体极化监测提供了一套完整的技术方案，从模型选择到训练策略均具有实践参考价值。论文的完整内容可在arXiv上获取，其代码和数据预计也将公开，以促进该领域的进一步研究。