2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:10 UTC+8

使用基於Transformer的模型結合類別加權和閾值調優實現多語言極化檢測

本研究提交至SemEval-2026任務9，旨在檢測多語言、多文化、多事件的線上極化現象。作者採用基於Transformer的模型（英語用RoBERTa-base，斯瓦希里語用AfroXLMR-base），結合類別加權損失函式處理嚴重標籤不平衡，並透過逐標籤閾值調優最佳化多標籤分類。在測試集上，任務1的F1宏觀分數英語為0.7901，斯瓦希里語為0.7910；任務2分別為0.4615和0.4808；任務3分別為0.4791和0.5830，在排行榜上表現有競爭力。錯誤分析顯示模型在非人化檢測和共情缺失方面存在困難。

來源arXiv Computational Linguistics作者: Aaron Bundi Anampiu

近日，一篇提交至SemEval-2026任務9的論文提出了一種基於Transformer模型的多語言極化檢測方法，旨在識別多語言、多文化和多事件背景下的線上極化現象。該研究由Aaron Bundi Anampiu獨立完成，論文編號arXiv:2606.30857，於2026年6月29日提交至arXiv預印本平臺。

研究聚焦於三個子任務：二值極化檢測（Subtask 1）、極化型別分類（Subtask 2）和極化表現識別（Subtask 3），資料集涵蓋英語和斯瓦希里語兩種語言。針對標籤嚴重不平衡這一核心挑戰，作者採用了類別加權損失函式，為少數類賦予更高權重，從而緩解模型對多數類的偏向。此外，為了最佳化多標籤分類效能，研究引入了逐標籤閾值調優策略，即為每個標籤獨立調整決策閾值，而非使用全域性統一閾值。

在模型選擇上，英語任務使用了RoBERTa-base模型，而斯瓦希里語任務則採用了AfroXLMR-base模型，後者是針對非洲語言最佳化的多語言Transformer模型。實驗結果顯示，該方法在三個子任務上均取得了有競爭力的成績：Subtask 1的F1宏觀分數英語為0.7901，斯瓦希里語為0.7910；Subtask 2分別為0.4615和0.4808；Subtask 3分別為0.4791和0.5830。這些分數表明，結合類別加權和閾值調優能夠有效處理多標籤極化檢測中的不平衡問題，並在排行榜上佔據有利位置。

然而，進一步的錯誤分析揭示了模型的侷限性。研究指出，模型在檢測非人化（dehumanization）和共情缺失（lack of empathy）這兩種細微極化表現時表現不佳。這暗示當前Transformer模型對社會情感訊號的捕捉能力仍有不足，未來可能需要透過更精細的特徵工程、引入外部常識知識或設計專門的損失函式來增強模型對這些維度的敏感度。

該研究為多語言社交媒體極化監測提供了一套完整的技術方案，從模型選擇到訓練策略均具有實踐參考價值。論文的完整內容可在arXiv上獲取，其程式碼和資料預計也將公開，以促進該領域的進一步研究。