2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:10 UTC+8

土耳其語和阿拉伯語仇恨言論檢測研究

研究人員針對土耳其語和阿拉伯語建立了包含六個主題的仇恨言論資料集，並開發了基於BERT的模型，用於分類、強度預測、目標識別和跨度檢測，以應對線上仇恨言論。

來源arXiv Computational Linguistics作者: Somaiyeh Dehghan, G\"ok\c{c}e Uludo\u{g}an, Mehmet Umut \c{S}en, Elif Erol, Arzucan \"Ozg\"ur, Berrin Yanikoglu

近年來，線上仇恨言論與全球範圍內針對少數群體的暴力事件——如大規模槍擊、私刑和種族清洗——的關聯日益受到關注。各國社會在應對這一問題時，尤其是在仇恨言論基於宗教、種族、民族、文化、國籍或移民身份針對特定群體的情況下，面臨平衡言論自由與有效內容稽核的挑戰。為了應對這一挑戰，研究人員引入了一個全面的仇恨言論資料集，涵蓋土耳其語中的五個不同主題：難民、以色列-巴勒斯坦衝突、土耳其國內的反希臘情緒、民族或宗教社群（包括阿萊維派、亞美尼亞人、阿拉伯人、猶太人和庫爾德人）以及LGBTI+群體，此外還包括阿拉伯語中的一個主題（難民）。

資料集構建完成後，團隊進一步開發了基於BERT的最先進模型，以處理仇恨言論分析的多個維度，包括仇恨類別分類、仇恨強度預測、目標識別以及仇恨言論跨度檢測。這些模型能夠對線上話語中的仇恨內容進行全面理解，從而為內容稽核系統提供技術支援。該研究不僅填補了土耳其語和阿拉伯語仇恨言論檢測領域的空白，還透過多工學習框架提升了模型的泛化能力。研究人員表示，未來計劃擴充套件資料集以覆蓋更多語言和主題，並探索模型在不同平臺上的實際應用效果。

這一研究的意義在於，它提供了一種可擴充套件的解決方案，幫助線上平臺在保護言論自由的同時，有效識別和遏制仇恨言論。隨著社交媒體在全球的普及，針對少數群體的仇恨言論日益增多，這項研究為內容稽核工具的開發提供了新的方向。