2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

大規模手語資料集綜述：資源、基準與標註標準全面調研

一項新的全面綜述對35種手語的120個資料集進行了索引，識別出模態不平衡、標註粒度和手語者偏差等關鍵挑戰。作者介紹了一種標準化的24欄位手語資料表，併發布了公共GitHub倉庫，以促進手語技術的可重複研究。

來源arXiv Computational Linguistics作者: Yiming Ni, Zhi-Qi Cheng, Jiayu Li, Wei Cheng

手語是聾啞及聽力障礙（DHH）社群使用的表達性視覺語言，在全球範圍內具有多樣性和複雜性。近年來，隨著深度學習技術的發展，手語識別、翻譯和生成取得了顯著進展，但這些進步受到資料集碎片化、標註不一致及語言覆蓋有限的制約。現有基準往往無法反映實際通訊需求，且對這些侷限性的系統分析仍然不足。

在這篇綜述中，研究團隊對手語資料集進行了全面索引，覆蓋了35種手語的120個資源。他們深入分析了模態不平衡——即不同資料模態（如RGB影片、深度圖、骨骼點）在資料集中的分佈不均，標註細粒度不足——許多資料集缺乏精確的句子級或詞級標註，以及手語者偏差——特定手語者的特徵可能導致模型泛化能力差。此外，論文還指出了現有基準評估協議的不一致性，並呼籲建立更貼近真實通訊場景的評價標準。

為了應對這些挑戰，作者引入了一種24欄位的手語資料表（Sign-Language Datasheet），旨在提供標準化的資料集文件，包括資料收集過程、標註方法論、語言變體、倫理考量等關鍵資訊。同時，他們釋出了公共GitHub倉庫（https://github.com/Ginqwerty/Open-Sign-Language），包含所有索引資料集的後設資料、評估指令碼和基準結果，以支援可重複的研究和公平比較。

這項工作的意義在於，它為開發包容、穩健且可擴充套件的手語技術提供了統一而實用的基礎。例如，透過資料表，研究人員可以快速識別適合特定任務的資料集，避免重複勞動；而標準化評估則有助於衡量技術的真實進展。論文已被ACL 2026主會議收錄，標誌著該領域對資料質量和可重複性的日益重視。未來，研究團隊計劃擴充套件覆蓋更多手語和低資源語言，並推動社群採用資料表標準，從而加速手語技術在無障礙通訊中的實際應用。