2026-06-19站内改写1 分钟阅读更新: 2026-06-19

大规模手语数据集综述：资源、基准与标注标准全面调研

一项新的全面综述对35种手语的120个数据集进行了索引，识别出模态不平衡、标注粒度和手语者偏差等关键挑战。作者介绍了一种标准化的24字段手语数据表，并发布了公共GitHub仓库，以促进手语技术的可重复研究。

来源arXiv Computational Linguistics作者: Yiming Ni, Zhi-Qi Cheng, Jiayu Li, Wei Cheng

手语是聋哑及听力障碍（DHH）社区使用的表达性视觉语言，在全球范围内具有多样性和复杂性。近年来，随着深度学习技术的发展，手语识别、翻译和生成取得了显著进展，但这些进步受到数据集碎片化、标注不一致及语言覆盖有限的制约。现有基准往往无法反映实际通信需求，且对这些局限性的系统分析仍然不足。

在这篇综述中，研究团队对手语数据集进行了全面索引，覆盖了35种手语的120个资源。他们深入分析了模态不平衡——即不同数据模态（如RGB视频、深度图、骨骼点）在数据集中的分布不均，标注细粒度不足——许多数据集缺乏精确的句子级或词级标注，以及手语者偏差——特定手语者的特征可能导致模型泛化能力差。此外，论文还指出了现有基准评估协议的不一致性，并呼吁建立更贴近真实通信场景的评价标准。

为了应对这些挑战，作者引入了一种24字段的手语数据表（Sign-Language Datasheet），旨在提供标准化的数据集文档，包括数据收集过程、标注方法论、语言变体、伦理考量等关键信息。同时，他们发布了公共GitHub仓库（https://github.com/Ginqwerty/Open-Sign-Language），包含所有索引数据集的元数据、评估脚本和基准结果，以支持可重复的研究和公平比较。

这项工作的意义在于，它为开发包容、稳健且可扩展的手语技术提供了统一而实用的基础。例如，通过数据表，研究人员可以快速识别适合特定任务的数据集，避免重复劳动；而标准化评估则有助于衡量技术的真实进展。论文已被ACL 2026主会议收录，标志着该领域对数据质量和可重复性的日益重视。未来，研究团队计划扩展覆盖更多手语和低资源语言，并推动社区采用数据表标准，从而加速手语技术在无障碍通信中的实际应用。