AI News HubLIVE
站内改写1 分钟阅读

大规模手语数据集综述:资源、基准与标注标准全面调研

一项新的全面综述对35种手语的120个数据集进行了索引,识别出模态不平衡、标注粒度和手语者偏差等关键挑战。作者介绍了一种标准化的24字段手语数据表,并发布了公共GitHub仓库,以促进手语技术的可重复研究。

来源arXiv Computational Linguistics作者: Yiming Ni, Zhi-Qi Cheng, Jiayu Li, Wei Cheng

手语是聋哑及听力障碍(DHH)社区使用的表达性视觉语言,在全球范围内具有多样性和复杂性。近年来,随着深度学习技术的发展,手语识别、翻译和生成取得了显著进展,但这些进步受到数据集碎片化、标注不一致及语言覆盖有限的制约。现有基准往往无法反映实际通信需求,且对这些局限性的系统分析仍然不足。

在这篇综述中,研究团队对手语数据集进行了全面索引,覆盖了35种手语的120个资源。他们深入分析了模态不平衡——即不同数据模态(如RGB视频、深度图、骨骼点)在数据集中的分布不均,标注细粒度不足——许多数据集缺乏精确的句子级或词级标注,以及手语者偏差——特定手语者的特征可能导致模型泛化能力差。此外,论文还指出了现有基准评估协议的不一致性,并呼吁建立更贴近真实通信场景的评价标准。

为了应对这些挑战,作者引入了一种24字段的手语数据表(Sign-Language Datasheet),旨在提供标准化的数据集文档,包括数据收集过程、标注方法论、语言变体、伦理考量等关键信息。同时,他们发布了公共GitHub仓库(https://github.com/Ginqwerty/Open-Sign-Language),包含所有索引数据集的元数据、评估脚本和基准结果,以支持可重复的研究和公平比较。

这项工作的意义在于,它为开发包容、稳健且可扩展的手语技术提供了统一而实用的基础。例如,通过数据表,研究人员可以快速识别适合特定任务的数据集,避免重复劳动;而标准化评估则有助于衡量技术的真实进展。论文已被ACL 2026主会议收录,标志着该领域对数据质量和可重复性的日益重视。未来,研究团队计划扩展覆盖更多手语和低资源语言,并推动社区采用数据表标准,从而加速手语技术在无障碍通信中的实际应用。