2026-04-30 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

用手语模型引导手语标注

苹果公司和加劳德特大学的研究人员开发了一种伪标注流程，以解决高质量标注手语数据稀缺的问题。该方法使用手指拼写识别器、孤立手语识别器和K-Shot大型语言模型，从手语视频和英语输入生成可能的标注。他们在FSBoard上实现了6.7%的词错误率（CER），在ASL Citizen上实现了74%的Top-1准确率，并发布了近500个人工标注视频和超过300小时的伪标注数据。

来源Apple Machine Learning Research

文章情报

工程师进阶

要点

高质量标注数据缺乏限制了AI手语翻译；ASL STEM Wiki和FLEURS-ASL等新数据集包含数百小时数据，但因标注成本高昂而被未充分利用。
该流程结合手指拼写识别器、孤立手语识别器（ISR）和K-Shot LLM，生成带时间区间的排名标注。
在FSBoard上达到6.7% CER，在ASL Citizen上达到74% Top-1准确率，均为最优结果。
专业手语翻译员标注了近500个视频；发布了超过300小时的伪标注和人工标签。

为什么重要

这条新闻值得关注，因为高质量标注数据缺乏限制了AI手语翻译；ASL STEM Wiki和FLEURS-ASL等新数据集包含数百小时数据，但因标注成本高昂而被未充分利用。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

苹果公司的机器学习研究团队与加劳德特大学合作，在CVPR 2026上发表了一项新研究，旨在解决AI手语翻译中高质量标注数据稀缺的问题。尽管像ASL STEM Wiki和FLEURS-ASL这样的新数据集包含了专业翻译员提供的数百小时数据，但由于标注成本过高，这些数据仅被部分标注，未能充分利用。

为了应对这一挑战，研究人员提出了一种伪标注流程（pseudo-annotation pipeline）。该流程以手语视频和英语文本为输入，输出一组排名靠前的可能标注，包括时间区间（time intervals）、手势标注（glosses）、手指拼写单词（fingerspelled words）和手语分类器（sign classifiers）。具体来说，流程利用手指拼写识别器（fingerspelling recognizer）和孤立手语识别器（ISR）的稀疏预测（sparse predictions），结合K-Shot大型语言模型方法（K-Shot LLM approach）来估计这些标注。这些模型的设计相对简单但有效，在FSBoard数据集上实现了6.7%的词错误率（CER），在ASL Citizen数据集上达到74%的Top-1准确率，均为当前最优水平（state-of-the-art）。

为了验证该流程并提供黄金标准基准，一位专业手语翻译员对ASL STEM Wiki中的近500个视频进行了序列级手势标注，包括手势、分类器和手指拼写。这些人工标注以及超过300小时的伪标注数据将在补充材料中发布。这一成果有望大幅降低手语数据的标注成本，推动AI手语翻译技术的进一步发展，为聋哑社区提供更有效的沟通工具。