低资源多模态翻译:将尼泊尔口语词汇转化为情感条件手语虚拟形象
本研究提出了NEST-V1,一个基于轻量级Transformer架构的多模态框架,能够从口语输入生成带有情感表达的尼泊尔手语虚拟形象。在包含4个常见词汇和3种情感状态的数据集上,系统实现了81.1%的语音识别准确率和79.21%的情感识别准确率,参数仅为22.1M,适合边缘部署。该研究为低资源语言的情感感知手语翻译奠定了基础。
长期以来,手语翻译系统通常缺乏情感表达,尤其在低资源语言中。一项新研究提出了NEST-V1(尼泊尔情感与语音Transformer第一版),这是一个概念验证的多模态框架,旨在从口语输入生成带有情感条件的尼泊尔手语虚拟形象。该研究于2026年5月提交至arXiv,专注于四个常用尼泊尔词汇(“谢谢”、“你好”、“房子”、“我”)在三类情感状态(高兴、中性、悲伤)下的翻译,以验证核心技术方法。
NEST-V1采用轻量级架构,核心是一个共享的声学编码器,能够同时执行自动语音识别(ASR)和情感分类。研究团队收集了来自50名说话者的600个带标签的音频样本,在该数据集上,ASR准确率达到81.1%,情感识别准确率达到79.21%。与单独模型架构相比,该系统的参数效率提高了37%,总参数仅为2210万,适合在边缘设备上部署。值得注意的是,该系统在保持轻量级的同时,实现了可观的性能,为实时应用提供了可能。
这项试点工作为低资源环境下的情感感知手语翻译奠定了技术基础。研究人员指出,该框架具有可扩展性,未来可扩展至更大的词汇量和更多样化的情感表达。初步结果表明,实时、情感表达丰富的手语通讯系统对听障社区具有可行性,并明确了后续开发阶段的改进路径。研究还公开了论文的PDF和HTML版本,以及相关的代码和数据集链接,以促进可重复性。该研究由Jatin Bhusal和Salma Tamang完成,包含了15页、5张图和9张表格,详细描述了实验设置和结果。