2026-07-02 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-02 17:10 UTC+9

トルコ語とアラビア語におけるヘイトスピーチ検出の包括的研究

研究者らは、トルコ語とアラビア語で6つのトピックをカバーするヘイトスピーチデータセットを作成し、BERTベースのモデルを開発して、カテゴリ分類、強度予測、ターゲット特定、スパン検出を実現した。

ソースarXiv Computational Linguistics著者: Somaiyeh Dehghan, G\"ok\c{c}e Uludo\u{g}an, Mehmet Umut \c{S}en, Elif Erol, Arzucan \"Ozg\"ur, Berrin Yanikoglu

記事インテリジェンス

エンジニア上級

要点

データセットはトルコ語の5トピック（難民、イスラエル・パレスチナ紛争、反ギリシャ感情、民族・宗教コミュニティ、LGBTI+）とアラビア語の1トピック（難民）を含む。
BERTベースのモデルは、カテゴリ、強度、ターゲット、スパン検出の多次元分析を行う。
研究は、少数派に対する暴力の文脈で、表現の自由とモデレーションのバランスを取る課題に取り組む。

重要な理由

このニュースが重要なのは、データセットはトルコ語の5トピック（難民、イスラエル・パレスチナ紛争、反ギリシャ感情、民族・宗教コミュニティ、LGBTI+）とアラビア語の1トピック（難民）を含むためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

近年、オンライン上のヘイトスピーチは、大量射殺、リンチ、民族浄化などの少数派に対する暴力の世界的な増加と関連付けられています。この問題に直面する社会は、特にヘイトスピーチが宗教、人種、民族、文化、国籍、移民ステータスに基づいて特定のグループを標的にする場合、表現の自由と広く利用されるオンラインプラットフォームでの効果的なコンテンツモデレーションのバランスを取るという課題に直面しています。この課題に対応するため、研究者らは、トルコ語の5つの異なるトピック（難民、イスラエル・パレスチナ紛争、トルコ国内の反ギリシャ感情、民族・宗教コミュニティ（アレヴィー派、アルメニア人、アラブ人、ユダヤ人、クルド人）、LGBTI+）と、アラビア語の1トピック（難民）をカバーする包括的なヘイトスピーチデータセットを導入しました。

さらに、研究チームは、ヘイトカテゴリ分類、ヘイト強度予測、ターゲット識別、ヘイトスピーチスパン検出を含むヘイトスピーチ分析の複数の次元に対処するために、最先端のBERTベースのモデルを開発しました。これにより、オンラインディスコースにおけるヘイトコンテンツの包括的な理解が可能になり、コンテンツモデレーションシステムの技術的基盤を提供します。この研究は、トルコ語とアラビア語のヘイトスピーチ検出分野のギャップを埋めるだけでなく、マルチタスク学習フレームワークを通じてモデルの汎化能力を向上させています。将来的には、より多くの言語とトピックをカバーするためにデータセットを拡張し、さまざまなプラットフォームでの実用応用を探求する予定です。

この研究の重要性は、表現の自由を保護しながらヘイトスピーチを効果的に識別・抑制するための拡張可能なソリューションを提供する点にあります。ソーシャルメディアの世界的な普及に伴い、少数派を標的にしたヘイトスピーチが増加している中、この研究はコンテンツモデレーションツールの開発に新たな方向性を示しています。