使用基於Transformer的模型結合類別加權和閾值調優實現多語言極化檢測
本研究提交至SemEval-2026任務9,旨在檢測多語言、多文化、多事件的在線極化現象。作者採用基於Transformer的模型(英語用RoBERTa-base,斯瓦希里語用AfroXLMR-base),結合類別加權損失函數處理嚴重標籤不平衡,並通過逐標籤閾值調優優化多標籤分類。在測試集上,任務1的F1宏觀分數英語為0.7901,斯瓦希里語為0.7910;任務2分別為0.4615和0.4808;任務3分別為0.4791和0.5830,在排行榜上表現有競爭力。錯誤分析顯示模型在非人化檢測和共情缺失方面存在困難。
近日,一篇提交至SemEval-2026任務9的論文提出了一種基於Transformer模型的多語言極化檢測方法,旨在識別多語言、多文化和多事件背景下的在線極化現象。該研究由Aaron Bundi Anampiu獨立完成,論文編號arXiv:2606.30857,於2026年6月29日提交至arXiv預印本平台。
研究聚焦於三個子任務:二值極化檢測(Subtask 1)、極化類型分類(Subtask 2)和極化表現識別(Subtask 3),數據集涵蓋英語和斯瓦希里語兩種語言。針對標籤嚴重不平衡這一核心挑戰,作者採用了類別加權損失函數,為少數類賦予更高權重,從而緩解模型對多數類的偏向。此外,為了優化多標籤分類性能,研究引入了逐標籤閾值調優策略,即為每個標籤獨立調整決策閾值,而非使用全局統一閾值。
在模型選擇上,英語任務使用了RoBERTa-base模型,而斯瓦希里語任務則採用了AfroXLMR-base模型,後者是針對非洲語言優化的多語言Transformer模型。實驗結果顯示,該方法在三個子任務上均取得了有競爭力的成績:Subtask 1的F1宏觀分數英語為0.7901,斯瓦希里語為0.7910;Subtask 2分別為0.4615和0.4808;Subtask 3分別為0.4791和0.5830。這些分數表明,結合類別加權和閾值調優能夠有效處理多標籤極化檢測中的不平衡問題,並在排行榜上佔據有利位置。
然而,進一步的錯誤分析揭示了模型的侷限性。研究指出,模型在檢測非人化(dehumanization)和共情缺失(lack of empathy)這兩種細微極化表現時表現不佳。這暗示當前Transformer模型對社會情感信號的捕捉能力仍有不足,未來可能需要通過更精細的特徵工程、引入外部常識知識或設計專門的損失函數來增強模型對這些維度的敏感度。
該研究為多語言社交媒體極化監測提供了一套完整的技術方案,從模型選擇到訓練策略均具有實踐參考價值。論文的完整內容可在arXiv上獲取,其代碼和數據預計也將公開,以促進該領域的進一步研究。