AI News HubLIVE
サイト内リライト2 分で読了

トルコ語とアラビア語におけるヘイトスピーチ検出の包括的研究

研究者らは、トルコ語とアラビア語で6つのトピックをカバーするヘイトスピーチデータセットを作成し、BERTベースのモデルを開発して、カテゴリ分類、強度予測、ターゲット特定、スパン検出を実現した。

ソースarXiv Computational Linguistics著者: Somaiyeh Dehghan, G\"ok\c{c}e Uludo\u{g}an, Mehmet Umut \c{S}en, Elif Erol, Arzucan \"Ozg\"ur, Berrin Yanikoglu

近年、オンライン上のヘイトスピーチは、大量射殺、リンチ、民族浄化などの少数派に対する暴力の世界的な増加と関連付けられています。この問題に直面する社会は、特にヘイトスピーチが宗教、人種、民族、文化、国籍、移民ステータスに基づいて特定のグループを標的にする場合、表現の自由と広く利用されるオンラインプラットフォームでの効果的なコンテンツモデレーションのバランスを取るという課題に直面しています。この課題に対応するため、研究者らは、トルコ語の5つの異なるトピック(難民、イスラエル・パレスチナ紛争、トルコ国内の反ギリシャ感情、民族・宗教コミュニティ(アレヴィー派、アルメニア人、アラブ人、ユダヤ人、クルド人)、LGBTI+)と、アラビア語の1トピック(難民)をカバーする包括的なヘイトスピーチデータセットを導入しました。

さらに、研究チームは、ヘイトカテゴリ分類、ヘイト強度予測、ターゲット識別、ヘイトスピーチスパン検出を含むヘイトスピーチ分析の複数の次元に対処するために、最先端のBERTベースのモデルを開発しました。これにより、オンラインディスコースにおけるヘイトコンテンツの包括的な理解が可能になり、コンテンツモデレーションシステムの技術的基盤を提供します。この研究は、トルコ語とアラビア語のヘイトスピーチ検出分野のギャップを埋めるだけでなく、マルチタスク学習フレームワークを通じてモデルの汎化能力を向上させています。将来的には、より多くの言語とトピックをカバーするためにデータセットを拡張し、さまざまなプラットフォームでの実用応用を探求する予定です。

この研究の重要性は、表現の自由を保護しながらヘイトスピーチを効果的に識別・抑制するための拡張可能なソリューションを提供する点にあります。ソーシャルメディアの世界的な普及に伴い、少数派を標的にしたヘイトスピーチが増加している中、この研究はコンテンツモデレーションツールの開発に新たな方向性を示しています。