AI News HubLIVE
站内改写1 分钟阅读

用手语模型引导手语标注

苹果公司和加劳德特大学的研究人员开发了一种伪标注流程,以解决高质量标注手语数据稀缺的问题。该方法使用手指拼写识别器、孤立手语识别器和K-Shot大型语言模型,从手语视频和英语输入生成可能的标注。他们在FSBoard上实现了6.7%的词错误率(CER),在ASL Citizen上实现了74%的Top-1准确率,并发布了近500个人工标注视频和超过300小时的伪标注数据。

苹果公司的机器学习研究团队与加劳德特大学合作,在CVPR 2026上发表了一项新研究,旨在解决AI手语翻译中高质量标注数据稀缺的问题。尽管像ASL STEM Wiki和FLEURS-ASL这样的新数据集包含了专业翻译员提供的数百小时数据,但由于标注成本过高,这些数据仅被部分标注,未能充分利用。

为了应对这一挑战,研究人员提出了一种伪标注流程(pseudo-annotation pipeline)。该流程以手语视频和英语文本为输入,输出一组排名靠前的可能标注,包括时间区间(time intervals)、手势标注(glosses)、手指拼写单词(fingerspelled words)和手语分类器(sign classifiers)。具体来说,流程利用手指拼写识别器(fingerspelling recognizer)和孤立手语识别器(ISR)的稀疏预测(sparse predictions),结合K-Shot大型语言模型方法(K-Shot LLM approach)来估计这些标注。这些模型的设计相对简单但有效,在FSBoard数据集上实现了6.7%的词错误率(CER),在ASL Citizen数据集上达到74%的Top-1准确率,均为当前最优水平(state-of-the-art)。

为了验证该流程并提供黄金标准基准,一位专业手语翻译员对ASL STEM Wiki中的近500个视频进行了序列级手势标注,包括手势、分类器和手指拼写。这些人工标注以及超过300小时的伪标注数据将在补充材料中发布。这一成果有望大幅降低手语数据的标注成本,推动AI手语翻译技术的进一步发展,为聋哑社区提供更有效的沟通工具。