大規模手語數據集綜述:資源、基準與標註標準全面調研
一項新的全面綜述對35種手語的120個數據集進行了索引,識別出模態不平衡、標註粒度和手語者偏差等關鍵挑戰。作者介紹了一種標準化的24字段手語數據表,併發布了公共GitHub倉庫,以促進手語技術的可重複研究。
手語是聾啞及聽力障礙(DHH)社區使用的表達性視覺語言,在全球範圍內具有多樣性和複雜性。近年來,隨着深度學習技術的發展,手語識別、翻譯和生成取得了顯著進展,但這些進步受到數據集碎片化、標註不一致及語言覆蓋有限的制約。現有基準往往無法反映實際通信需求,且對這些侷限性的系統分析仍然不足。
在這篇綜述中,研究團隊對手語數據集進行了全面索引,覆蓋了35種手語的120個資源。他們深入分析了模態不平衡——即不同數據模態(如RGB視頻、深度圖、骨骼點)在數據集中的分佈不均,標註細粒度不足——許多數據集缺乏精確的句子級或詞級標註,以及手語者偏差——特定手語者的特徵可能導致模型泛化能力差。此外,論文還指出了現有基準評估協議的不一致性,並呼籲建立更貼近真實通信場景的評價標準。
為了應對這些挑戰,作者引入了一種24字段的手語數據表(Sign-Language Datasheet),旨在提供標準化的數據集文檔,包括數據收集過程、標註方法論、語言變體、倫理考量等關鍵信息。同時,他們發佈了公共GitHub倉庫(https://github.com/Ginqwerty/Open-Sign-Language),包含所有索引數據集的元數據、評估腳本和基準結果,以支持可重複的研究和公平比較。
這項工作的意義在於,它為開發包容、穩健且可擴展的手語技術提供了統一而實用的基礎。例如,通過數據表,研究人員可以快速識別適合特定任務的數據集,避免重複勞動;而標準化評估則有助於衡量技術的真實進展。論文已被ACL 2026主會議收錄,標誌着該領域對數據質量和可重複性的日益重視。未來,研究團隊計劃擴展覆蓋更多手語和低資源語言,並推動社區採用數據表標準,從而加速手語技術在無障礙通信中的實際應用。