2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:10 UTC+8

土耳其语和阿拉伯语仇恨言论检测研究

研究人员针对土耳其语和阿拉伯语创建了包含六个主题的仇恨言论数据集，并开发了基于BERT的模型，用于分类、强度预测、目标识别和跨度检测，以应对在线仇恨言论。

来源arXiv Computational Linguistics作者: Somaiyeh Dehghan, G\"ok\c{c}e Uludo\u{g}an, Mehmet Umut \c{S}en, Elif Erol, Arzucan \"Ozg\"ur, Berrin Yanikoglu

近年来，在线仇恨言论与全球范围内针对少数群体的暴力事件——如大规模枪击、私刑和种族清洗——的关联日益受到关注。各国社会在应对这一问题时，尤其是在仇恨言论基于宗教、种族、民族、文化、国籍或移民身份针对特定群体的情况下，面临平衡言论自由与有效内容审核的挑战。为了应对这一挑战，研究人员引入了一个全面的仇恨言论数据集，涵盖土耳其语中的五个不同主题：难民、以色列-巴勒斯坦冲突、土耳其国内的反希腊情绪、民族或宗教社区（包括阿莱维派、亚美尼亚人、阿拉伯人、犹太人和库尔德人）以及LGBTI+群体，此外还包括阿拉伯语中的一个主题（难民）。

数据集构建完成后，团队进一步开发了基于BERT的最先进模型，以处理仇恨言论分析的多个维度，包括仇恨类别分类、仇恨强度预测、目标识别以及仇恨言论跨度检测。这些模型能够对在线话语中的仇恨内容进行全面理解，从而为内容审核系统提供技术支持。该研究不仅填补了土耳其语和阿拉伯语仇恨言论检测领域的空白，还通过多任务学习框架提升了模型的泛化能力。研究人员表示，未来计划扩展数据集以覆盖更多语言和主题，并探索模型在不同平台上的实际应用效果。

这一研究的意义在于，它提供了一种可扩展的解决方案，帮助在线平台在保护言论自由的同时，有效识别和遏制仇恨言论。随着社交媒体在全球的普及，针对少数群体的仇恨言论日益增多，这项研究为内容审核工具的开发提供了新的方向。