AI News HubLIVE
サイト内リライト1 分で読了

低リソース多モーダル翻訳:ネパール語音声から感情条件付き手話アバターへの変換

本研究では、NEST-V1という軽量Transformerベースの多モーダルフレームワークを提案。音声入力から感情表現を伴うネパール手話アバターを生成する。4単語・3感情のデータセットでASR精度81.1%、感情認識精度79.21%を達成。パラメータ数22.1Mでエッジ展開に適する。低リソース言語における感情対応手話翻訳の技術基盤を確立。

ソースarXiv Computational Linguistics著者: Jatin Bhusal, Salma Tamang

手話コミュニケーションシステムは感情表現の統合が不足しており、特に低リソース言語では研究が進んでいない。2026年5月にarXivに提出された新しい研究では、NEST-V1(Nepali Emotion and Speech Transformer - Version 1)という概念実証の多モーダルフレームワークを提案する。このシステムは、音声入力から感情条件付きのネパール手話アバターを生成する。パイロット研究として、4つの一般的なネパール語単語(「ありがとう」「こんにちは」「家」「私」)を三つの感情状態(幸せ、中立、悲しみ)で扱い、コア技術を検証した。

NEST-V1は軽量アーキテクチャを採用し、共有音響エンコーダで自動音声認識(ASR)と感情分類を同時に実行する。50人の話者から収集した600のラベル付き音声サンプルで評価した結果、ASR精度81.1%、感情認識精度79.21%を達成。個別モデルと比較してパラメータ効率が37%向上し、総パラメータ数2210万でエッジデバイスへの展開が可能である。この軽量設計により、リアルタイム処理が現実的となる。

このパイロット研究は、低リソース環境における感情認識手話翻訳の技術基盤を確立し、将来の大語彙や多様な感情表現への拡張が可能なスケーラブルなフレームワークを提供する。研究チームは、リアルタイムで感情表現豊かな手話コミュニケーションシステムが聴覚障害者コミュニティに有効であることを示し、今後の開発段階での改善の道筋も明らかにしている。論文はPDFやHTML形式で公開され、再現性を促進するためのコードやデータセットへのリンクも提供されている。本研究はJatin BhusalとSalma Tamangによって行われ、15ページ、5図、9表から構成される詳細な報告である。