2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

大規模手語數據集綜述：資源、基準與標註標準全面調研

一項新的全面綜述對35種手語的120個數據集進行了索引，識別出模態不平衡、標註粒度和手語者偏差等關鍵挑戰。作者介紹了一種標準化的24字段手語數據表，併發布了公共GitHub倉庫，以促進手語技術的可重複研究。

來源arXiv Computational Linguistics作者: Yiming Ni, Zhi-Qi Cheng, Jiayu Li, Wei Cheng

手語是聾啞及聽力障礙（DHH）社區使用的表達性視覺語言，在全球範圍內具有多樣性和複雜性。近年來，隨着深度學習技術的發展，手語識別、翻譯和生成取得了顯著進展，但這些進步受到數據集碎片化、標註不一致及語言覆蓋有限的制約。現有基準往往無法反映實際通信需求，且對這些侷限性的系統分析仍然不足。

在這篇綜述中，研究團隊對手語數據集進行了全面索引，覆蓋了35種手語的120個資源。他們深入分析了模態不平衡——即不同數據模態（如RGB視頻、深度圖、骨骼點）在數據集中的分佈不均，標註細粒度不足——許多數據集缺乏精確的句子級或詞級標註，以及手語者偏差——特定手語者的特徵可能導致模型泛化能力差。此外，論文還指出了現有基準評估協議的不一致性，並呼籲建立更貼近真實通信場景的評價標準。

為了應對這些挑戰，作者引入了一種24字段的手語數據表（Sign-Language Datasheet），旨在提供標準化的數據集文檔，包括數據收集過程、標註方法論、語言變體、倫理考量等關鍵信息。同時，他們發佈了公共GitHub倉庫（https://github.com/Ginqwerty/Open-Sign-Language），包含所有索引數據集的元數據、評估腳本和基準結果，以支持可重複的研究和公平比較。

這項工作的意義在於，它為開發包容、穩健且可擴展的手語技術提供了統一而實用的基礎。例如，通過數據表，研究人員可以快速識別適合特定任務的數據集，避免重複勞動；而標準化評估則有助於衡量技術的真實進展。論文已被ACL 2026主會議收錄，標誌着該領域對數據質量和可重複性的日益重視。未來，研究團隊計劃擴展覆蓋更多手語和低資源語言，並推動社區採用數據表標準，從而加速手語技術在無障礙通信中的實際應用。