2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:10 UTC+8

土耳其語和阿拉伯語仇恨言論檢測研究

研究人員針對土耳其語和阿拉伯語創建了包含六個主題的仇恨言論數據集，並開發了基於BERT的模型，用於分類、強度預測、目標識別和跨度檢測，以應對在線仇恨言論。

來源arXiv Computational Linguistics作者: Somaiyeh Dehghan, G\"ok\c{c}e Uludo\u{g}an, Mehmet Umut \c{S}en, Elif Erol, Arzucan \"Ozg\"ur, Berrin Yanikoglu

近年來，在線仇恨言論與全球範圍內針對少數羣體的暴力事件——如大規模槍擊、私刑和種族清洗——的關聯日益受到關注。各國社會在應對這一問題時，尤其是在仇恨言論基於宗教、種族、民族、文化、國籍或移民身份針對特定羣體的情況下，面臨平衡言論自由與有效內容審核的挑戰。為了應對這一挑戰，研究人員引入了一個全面的仇恨言論數據集，涵蓋土耳其語中的五個不同主題：難民、以色列-巴勒斯坦衝突、土耳其國內的反希臘情緒、民族或宗教社區（包括阿萊維派、亞美尼亞人、阿拉伯人、猶太人和庫爾德人）以及LGBTI+羣體，此外還包括阿拉伯語中的一個主題（難民）。

數據集構建完成後，團隊進一步開發了基於BERT的最先進模型，以處理仇恨言論分析的多個維度，包括仇恨類別分類、仇恨強度預測、目標識別以及仇恨言論跨度檢測。這些模型能夠對在線話語中的仇恨內容進行全面理解，從而為內容審核系統提供技術支持。該研究不僅填補了土耳其語和阿拉伯語仇恨言論檢測領域的空白，還通過多任務學習框架提升了模型的泛化能力。研究人員表示，未來計劃擴展數據集以覆蓋更多語言和主題，並探索模型在不同平台上的實際應用效果。

這一研究的意義在於，它提供了一種可擴展的解決方案，幫助在線平台在保護言論自由的同時，有效識別和遏制仇恨言論。隨着社交媒體在全球的普及，針對少數羣體的仇恨言論日益增多，這項研究為內容審核工具的開發提供了新的方向。