AI News HubLIVE
サイト内リライト1 分で読了

手話モデルによる手話アノテーションのブートストラッピング

Appleとガローデット大学の研究者は、高品質なアノテーション付き手話データの不足に対処するため、疑似アノテーションパイプラインを開発しました。この手法は、指文字認識器、孤立手話認識器(ISR)、およびK-Shot LLMを使用して、手話動画と英語入力から可能性の高いアノテーションを生成します。FSBoardで6.7%の文字誤り率(CER)、ASL Citizenで74%のTop-1精度を達成し、約500の人間によるアノテーション動画と300時間以上の疑似アノテーションデータを公開しています。

Appleの機械学習研究チームは、ガローデット大学と協力し、CVPR 2026で発表した研究において、AI手話翻訳における高品質なアノテーションデータの不足を解決するための疑似アノテーションパイプラインを提案しました。ASL STEM WikiやFLEURS-ASLのような新しいデータセットには専門の手話通訳者による数百時間のデータが含まれていますが、アノテーションコストが高く、部分的にしかアノテーションされておらず、十分に活用されていませんでした。

このパイプラインは、手話動画と英語テキストを入力とし、グロス(glosses)、指文字(fingerspelled words)、手話分類器(sign classifiers)の時間区間を含む、可能性の高いアノテーションのランク付けリストを出力します。指文字認識器と孤立手話認識器(ISR)のスパースな予測に加え、K-Shot LLMアプローチを使用してアノテーションを推定します。このパイプラインを支えるために、シンプルでありながら効果的な指文字認識とISRのベースラインモデルを構築し、FSBoardデータセットで6.7%の文字誤り率(CER)、ASL Citizenデータセットで74%のTop-1精度を達成し、それぞれ最先端の結果を示しました。

検証とゴールドスタンダードベンチマークを提供するため、専門の手話通訳者がASL STEM Wikiの約500の動画に、グロス、分類器、指文字を含むシーケンスレベルのアノテーションを施しました。これらの人間によるアノテーションと300時間以上の疑似アノテーションは補足資料として公開されます。この研究は、手話データのアノテーションコストを大幅に削減し、AI手話翻訳技術の進展に寄与すると期待され、聴覚障害者コミュニティへのより良いコミュニケーションツールの提供につながります。