AI News HubLIVE
站內改寫1 分鐘閱讀

低資源多模態翻譯:將尼泊爾口語詞彙轉化為情感條件手語虛擬形象

本研究提出了NEST-V1,一個基於輕量級Transformer架構的多模態框架,能夠從口語輸入生成帶有情感表達的尼泊爾手語虛擬形象。在包含4個常見詞彙和3種情感狀態的資料集上,系統實現了81.1%的語音識別準確率和79.21%的情感識別準確率,引數僅為22.1M,適合邊緣部署。該研究為低資源語言的情感感知手語翻譯奠定了基礎。

來源arXiv Computational Linguistics作者: Jatin Bhusal, Salma Tamang

長期以來,手語翻譯系統通常缺乏情感表達,尤其在低資源語言中。一項新研究提出了NEST-V1(尼泊爾情感與語音Transformer第一版),這是一個概念驗證的多模態框架,旨在從口語輸入生成帶有情感條件的尼泊爾手語虛擬形象。該研究於2026年5月提交至arXiv,專注於四個常用尼泊爾詞彙(“謝謝”、“你好”、“房子”、“我”)在三類情感狀態(高興、中性、悲傷)下的翻譯,以驗證核心技術方法。

NEST-V1採用輕量級架構,核心是一個共享的聲學編碼器,能夠同時執行自動語音識別(ASR)和情感分類。研究團隊收集了來自50名說話者的600個帶標籤的音訊樣本,在該資料集上,ASR準確率達到81.1%,情感識別準確率達到79.21%。與單獨模型架構相比,該系統的引數效率提高了37%,總引數僅為2210萬,適合在邊緣裝置上部署。值得注意的是,該系統在保持輕量級的同時,實現了可觀的效能,為即時應用提供了可能。

這項試點工作為低資源環境下的情感感知手語翻譯奠定了技術基礎。研究人員指出,該框架具有可擴充套件性,未來可擴充套件至更大的詞彙量和更多樣化的情感表達。初步結果表明,即時、情感表達豐富的手語通訊系統對聽障社群具有可行性,並明確了後續開發階段的改進路徑。研究還公開了論文的PDF和HTML版本,以及相關的程式碼和資料集連結,以促進可重複性。該研究由Jatin Bhusal和Salma Tamang完成,包含了15頁、5張圖和9張表格,詳細描述了實驗設定和結果。