大規模手語資料集綜述:資源、基準與標註標準全面調研
一項新的全面綜述對35種手語的120個資料集進行了索引,識別出模態不平衡、標註粒度和手語者偏差等關鍵挑戰。作者介紹了一種標準化的24欄位手語資料表,併發布了公共GitHub倉庫,以促進手語技術的可重複研究。
手語是聾啞及聽力障礙(DHH)社群使用的表達性視覺語言,在全球範圍內具有多樣性和複雜性。近年來,隨著深度學習技術的發展,手語識別、翻譯和生成取得了顯著進展,但這些進步受到資料集碎片化、標註不一致及語言覆蓋有限的制約。現有基準往往無法反映實際通訊需求,且對這些侷限性的系統分析仍然不足。
在這篇綜述中,研究團隊對手語資料集進行了全面索引,覆蓋了35種手語的120個資源。他們深入分析了模態不平衡——即不同資料模態(如RGB影片、深度圖、骨骼點)在資料集中的分佈不均,標註細粒度不足——許多資料集缺乏精確的句子級或詞級標註,以及手語者偏差——特定手語者的特徵可能導致模型泛化能力差。此外,論文還指出了現有基準評估協議的不一致性,並呼籲建立更貼近真實通訊場景的評價標準。
為了應對這些挑戰,作者引入了一種24欄位的手語資料表(Sign-Language Datasheet),旨在提供標準化的資料集文件,包括資料收集過程、標註方法論、語言變體、倫理考量等關鍵資訊。同時,他們釋出了公共GitHub倉庫(https://github.com/Ginqwerty/Open-Sign-Language),包含所有索引資料集的後設資料、評估指令碼和基準結果,以支援可重複的研究和公平比較。
這項工作的意義在於,它為開發包容、穩健且可擴充套件的手語技術提供了統一而實用的基礎。例如,透過資料表,研究人員可以快速識別適合特定任務的資料集,避免重複勞動;而標準化評估則有助於衡量技術的真實進展。論文已被ACL 2026主會議收錄,標誌著該領域對資料質量和可重複性的日益重視。未來,研究團隊計劃擴充套件覆蓋更多手語和低資源語言,並推動社群採用資料表標準,從而加速手語技術在無障礙通訊中的實際應用。