2026-05-06站内改写

在开放式ASR排行榜中添加防作弊数据集

Open ASR排行榜引入Appen和DataoceanAI提供的高质量私有数据集，通过可切换的评估选项防止benchmaxxing，提供更全面的语音识别性能衡量。

文章情报

工程师进阶

要点

引入私有数据集以防止测试集污染和benchmaxxing。
提供脚本和对话语音的多种口音数据集。
排行榜默认使用公共数据集计算平均WER，用户可切换包含私有数据。
多数据提供者平衡优势，防止模型针对性优化。

为什么重要

这条新闻值得关注，因为引入私有数据集以防止测试集污染和benchmaxxing。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

自2023年9月推出以来，Open ASR排行榜已获得超过71万次访问。在标准化和开放性的推动下，该排行榜始终致力于为语音识别模型提供可靠的对比基准。然而，这也使其面临benchmaxxing（针对基准测试的过度优化）的风险：模型可能通过专门优化在公共测试集上获得高分，但实际鲁棒性并未提升。

为应对这一挑战，Open ASR排行榜与Appen Inc.和DataoceanAI合作，引入了新的高质量私有数据集。这些数据集涵盖澳大利亚、加拿大、印度、美国、英国等多种英语口音，包括脚本朗读和自发对话两种风格，总时长超过28小时。每个数据集在口音、性别比例、标注风格（如是否包含标点和口误）等方面均经过精心设计，以模拟真实应用场景。

私有数据集旨在防止测试集污染：由于不公开，模型开发者无法针对特定数据集进行优化。尽管如此，排行榜默认仍使用公共数据集计算平均WER，以确保基准的延续性。用户可通过切换开关将私有数据纳入宏观平均，从而观察其对模型排名的影响。新的“私有数据”选项卡还提供脚本平均、对话平均、美国口音平均和非美国口音平均等细分指标，但故意不公开单个数据集的分数，以避免过度优化。

模型开发者若希望评估模型，可在Open ASR排行榜的GitHub仓库中提交拉取请求，报告在公共集上的结果。团队验证后，将计算私有集上的指标并更新排行榜。同时，开发者也可通过模型卡中的YAML文件自行报告公共集结果，出现在数据集页面的未验证排行榜中。

多数据提供者的设定平衡了潜在优势：即使某模型使用了来自同一提供者的类似训练数据，其他提供者的数据集仍可防止单一偏向。此外，私有数据的默认排除机制确保排名不会被训练数据分布所扭曲。

未来，团队计划纳入更多真实噪声条件下的评估，并持续改进音频和转录质量检测工具。Open ASR排行榜将继续通过标准化、开放性与私有评估相结合的方式，推动语音识别技术的真实性能提升。