大規模手話データセットの調査:リソース、ベンチマーク、アノテーション基準の包括的レビュー
新しい包括的な調査では、35の手話にわたる120のデータセットを索引付けし、モダリティの不均衡、アノテーションの細かさ、手話者のバイアスなどの重要な課題を特定しています。著者らは、標準化された24フィールドの手話データシートを導入し、再現可能な研究を支援する公開GitHubリポジトリを公開しました。
手話は、聴覚障害者(DHH)コミュニティによって使用される表現力豊かな視覚言語であり、世界中で多様な形態を持っています。近年、深層学習技術の進展により、手話認識、翻訳、生成の分野で大きな進歩が見られましたが、データセットの断片化、アノテーションの不統一、言語カバレッジの限界により、さらなる発展が妨げられています。既存のベンチマークは実際のコミュニケーションのニーズを反映しておらず、これらの限界に関する体系的な分析も不足しています。
本調査では、35の手話にわたる120のデータセットを包括的に索引付けし、モダリティの不均衡(RGBビデオ、深度マップ、骨格点など異なるデータモダリティの分布の偏り)、アノテーションの粒度不足(多くのデータセットで文レベルや単語レベルの正確なラベルが欠如)、手話者のバイアス(特定の手話者の特徴がモデルの一般化を阻害)などの主要な課題を分析しています。また、既存のベンチマーク評価プロトコルの不整合を指摘し、より現実的な通信シナリオに即した評価基準の確立を提唱しています。
これらの課題に対処するため、著者らは24フィールドからなる手話データシート(Sign-Language Datasheet)を導入し、データ収集プロセス、アノテーション方法論、言語変種、倫理的考慮事項などの重要な情報を標準化して文書化することを提案しています。さらに、公開GitHubリポジトリ(https://github.com/Ginqwerty/Open-Sign-Language)を公開し、索引付けされた全データセットのメタデータ、評価スクリプト、ベンチマーク結果を提供することで、再現可能な研究と公平な比較を支援します。
この研究の意義は、包括的で堅牢かつスケーラブルな手話技術を開発するための統一された実用的基盤を提供することにあります。例えば、データシートを活用することで、研究者は特定のタスクに適したデータセットを迅速に特定でき、重複作業を回避できます。また、標準化された評価は技術の真の進歩を測定するのに役立ちます。本論文はACL 2026メイン会議に採択されており、この分野でデータ品質と再現性への重要性が高まっていることを示しています。将来、研究チームはより多くの手話や低リソース言語へのカバレッジ拡大を計画しており、データシート標準のコミュニティ採用を促進することで、アクセシブルなコミュニケーションにおける手話技術の実用化を加速することを目指しています。