用手語模型引導手語標註
蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程,以解決高質量標註手語資料稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型,從手語影片和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率(CER),在ASL Citizen上實現了74%的Top-1準確率,併發布了近500個人工標註影片和超過300小時的偽標註資料。
蘋果公司的機器學習研究團隊與加勞德特大學合作,在CVPR 2026上發表了一項新研究,旨在解決AI手語翻譯中高質量標註資料稀缺的問題。儘管像ASL STEM Wiki和FLEURS-ASL這樣的新資料集包含了專業翻譯員提供的數百小時資料,但由於標註成本過高,這些資料僅被部分標註,未能充分利用。
為了應對這一挑戰,研究人員提出了一種偽標註流程(pseudo-annotation pipeline)。該流程以手語影片和英語文本為輸入,輸出一組排名靠前的可能標註,包括時間區間(time intervals)、手勢標註(glosses)、手指拼寫單詞(fingerspelled words)和手語分類器(sign classifiers)。具體來說,流程利用手指拼寫識別器(fingerspelling recognizer)和孤立手語識別器(ISR)的稀疏預測(sparse predictions),結合K-Shot大型語言模型方法(K-Shot LLM approach)來估計這些標註。這些模型的設計相對簡單但有效,在FSBoard資料集上實現了6.7%的詞錯誤率(CER),在ASL Citizen資料集上達到74%的Top-1準確率,均為當前最優水平(state-of-the-art)。
為了驗證該流程並提供黃金標準基準,一位專業手語翻譯員對ASL STEM Wiki中的近500個影片進行了序列級手勢標註,包括手勢、分類器和手指拼寫。這些人工標註以及超過300小時的偽標註資料將在補充材料中釋出。這一成果有望大幅降低手語資料的標註成本,推動AI手語翻譯技術的進一步發展,為聾啞社群提供更有效的溝通工具。