2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:04 UTC+8

低资源多模态翻译：将尼泊尔口语词汇转化为情感条件手语虚拟形象

本研究提出了NEST-V1，一个基于轻量级Transformer架构的多模态框架，能够从口语输入生成带有情感表达的尼泊尔手语虚拟形象。在包含4个常见词汇和3种情感状态的数据集上，系统实现了81.1%的语音识别准确率和79.21%的情感识别准确率，参数仅为22.1M，适合边缘部署。该研究为低资源语言的情感感知手语翻译奠定了基础。

来源arXiv Computational Linguistics作者: Jatin Bhusal, Salma Tamang

文章情报

工程师进阶

要点

NEST-V1是一个多模态框架，可将尼泊尔口语词汇转化为带有情感（快乐、中性、悲伤）的手语虚拟形象。
系统采用共享声学编码器，同时进行语音识别和情感分类，在600个音频样本上达到81.1%和79.21%的准确率。
相比分离模型，参数效率提升37%，22.1M参数适合边缘设备部署。
该试点研究为低资源语言的情感感知手语翻译系统提供了可扩展的技术基础。

为什么重要

这条新闻值得关注，因为NEST-V1是一个多模态框架，可将尼泊尔口语词汇转化为带有情感（快乐、中性、悲伤）的手语虚拟形象。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

长期以来，手语翻译系统通常缺乏情感表达，尤其在低资源语言中。一项新研究提出了NEST-V1（尼泊尔情感与语音Transformer第一版），这是一个概念验证的多模态框架，旨在从口语输入生成带有情感条件的尼泊尔手语虚拟形象。该研究于2026年5月提交至arXiv，专注于四个常用尼泊尔词汇（“谢谢”、“你好”、“房子”、“我”）在三类情感状态（高兴、中性、悲伤）下的翻译，以验证核心技术方法。

NEST-V1采用轻量级架构，核心是一个共享的声学编码器，能够同时执行自动语音识别（ASR）和情感分类。研究团队收集了来自50名说话者的600个带标签的音频样本，在该数据集上，ASR准确率达到81.1%，情感识别准确率达到79.21%。与单独模型架构相比，该系统的参数效率提高了37%，总参数仅为2210万，适合在边缘设备上部署。值得注意的是，该系统在保持轻量级的同时，实现了可观的性能，为实时应用提供了可能。

这项试点工作为低资源环境下的情感感知手语翻译奠定了技术基础。研究人员指出，该框架具有可扩展性，未来可扩展至更大的词汇量和更多样化的情感表达。初步结果表明，实时、情感表达丰富的手语通讯系统对听障社区具有可行性，并明确了后续开发阶段的改进路径。研究还公开了论文的PDF和HTML版本，以及相关的代码和数据集链接，以促进可重复性。该研究由Jatin Bhusal和Salma Tamang完成，包含了15页、5张图和9张表格，详细描述了实验设置和结果。