2026-04-30 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

用手語模型引導手語標註

蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程，以解決高質量標註手語資料稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型，從手語影片和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率（CER），在ASL Citizen上實現了74%的Top-1準確率，併發布了近500個人工標註影片和超過300小時的偽標註資料。

來源Apple Machine Learning Research

文章情報

工程師進階

要點

高質量標註資料缺乏限制了AI手語翻譯；ASL STEM Wiki和FLEURS-ASL等新資料集包含數百小時資料，但因標註成本高昂而被未充分利用。
該流程結合手指拼寫識別器、孤立手語識別器（ISR）和K-Shot LLM，生成帶時間區間的排名標註。
在FSBoard上達到6.7% CER，在ASL Citizen上達到74% Top-1準確率，均為最優結果。
專業手語翻譯員標註了近500個影片；釋出了超過300小時的偽標註和人工標籤。

為什麼重要

這條新聞值得關注，因為高質量標註資料缺乏限制了AI手語翻譯；ASL STEM Wiki和FLEURS-ASL等新資料集包含數百小時資料，但因標註成本高昂而被未充分利用。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

蘋果公司的機器學習研究團隊與加勞德特大學合作，在CVPR 2026上發表了一項新研究，旨在解決AI手語翻譯中高質量標註資料稀缺的問題。儘管像ASL STEM Wiki和FLEURS-ASL這樣的新資料集包含了專業翻譯員提供的數百小時資料，但由於標註成本過高，這些資料僅被部分標註，未能充分利用。

為了應對這一挑戰，研究人員提出了一種偽標註流程（pseudo-annotation pipeline）。該流程以手語影片和英語文本為輸入，輸出一組排名靠前的可能標註，包括時間區間（time intervals）、手勢標註（glosses）、手指拼寫單詞（fingerspelled words）和手語分類器（sign classifiers）。具體來說，流程利用手指拼寫識別器（fingerspelling recognizer）和孤立手語識別器（ISR）的稀疏預測（sparse predictions），結合K-Shot大型語言模型方法（K-Shot LLM approach）來估計這些標註。這些模型的設計相對簡單但有效，在FSBoard資料集上實現了6.7%的詞錯誤率（CER），在ASL Citizen資料集上達到74%的Top-1準確率，均為當前最優水平（state-of-the-art）。

為了驗證該流程並提供黃金標準基準，一位專業手語翻譯員對ASL STEM Wiki中的近500個影片進行了序列級手勢標註，包括手勢、分類器和手指拼寫。這些人工標註以及超過300小時的偽標註資料將在補充材料中釋出。這一成果有望大幅降低手語資料的標註成本，推動AI手語翻譯技術的進一步發展，為聾啞社群提供更有效的溝通工具。