AI News HubLIVE
站内改写

在开放式ASR排行榜中添加防作弊数据集

Open ASR排行榜引入Appen和DataoceanAI提供的高质量私有数据集,通过可切换的评估选项防止benchmaxxing,提供更全面的语音识别性能衡量。

文章情报

工程师进阶

要点

  • 引入私有数据集以防止测试集污染和benchmaxxing。
  • 提供脚本和对话语音的多种口音数据集。
  • 排行榜默认使用公共数据集计算平均WER,用户可切换包含私有数据。
  • 多数据提供者平衡优势,防止模型针对性优化。

为什么重要

这条新闻值得关注,因为引入私有数据集以防止测试集污染和benchmaxxing。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

自2023年9月推出以来,Open ASR排行榜已获得超过71万次访问。在标准化和开放性的推动下,该排行榜始终致力于为语音识别模型提供可靠的对比基准。然而,这也使其面临benchmaxxing(针对基准测试的过度优化)的风险:模型可能通过专门优化在公共测试集上获得高分,但实际鲁棒性并未提升。

为应对这一挑战,Open ASR排行榜与Appen Inc.和DataoceanAI合作,引入了新的高质量私有数据集。这些数据集涵盖澳大利亚、加拿大、印度、美国、英国等多种英语口音,包括脚本朗读和自发对话两种风格,总时长超过28小时。每个数据集在口音、性别比例、标注风格(如是否包含标点和口误)等方面均经过精心设计,以模拟真实应用场景。

私有数据集旨在防止测试集污染:由于不公开,模型开发者无法针对特定数据集进行优化。尽管如此,排行榜默认仍使用公共数据集计算平均WER,以确保基准的延续性。用户可通过切换开关将私有数据纳入宏观平均,从而观察其对模型排名的影响。新的“私有数据”选项卡还提供脚本平均、对话平均、美国口音平均和非美国口音平均等细分指标,但故意不公开单个数据集的分数,以避免过度优化。

模型开发者若希望评估模型,可在Open ASR排行榜的GitHub仓库中提交拉取请求,报告在公共集上的结果。团队验证后,将计算私有集上的指标并更新排行榜。同时,开发者也可通过模型卡中的YAML文件自行报告公共集结果,出现在数据集页面的未验证排行榜中。

多数据提供者的设定平衡了潜在优势:即使某模型使用了来自同一提供者的类似训练数据,其他提供者的数据集仍可防止单一偏向。此外,私有数据的默认排除机制确保排名不会被训练数据分布所扭曲。

未来,团队计划纳入更多真实噪声条件下的评估,并持续改进音频和转录质量检测工具。Open ASR排行榜将继续通过标准化、开放性与私有评估相结合的方式,推动语音识别技术的真实性能提升。