2026-06-30 03:14 UTC+8站内改写2 分钟阅读更新: 2026-06-30 03:25 UTC+8

大规模助听器盲听测试：数据库与预测模型

HearAdvisor 发布了大规模助听器感知数据集，包含 151,608 条用户对语音理解难易度的评分，并基于 Whisper 编码器训练了预测模型，该模型在场景级别上显著优于传统 HASPIv2 指标。

来源Hacker News AI作者: funkdified

2026年6月24日，Andrew Sabin等人在arXiv上提交了一篇题为《A Large-Scale Database and Predictive Model of Listener-Rated Ease of Speech Understanding in Commercial Hearing Aids》的论文。该研究由HearAdvisor公司主导，旨在为助听器消费者提供更贴近真实听感的性能指标。长期以来，HearAdvisor一直使用HASPIv2作为语音相关指标的评估工具，但该指标主要基于模拟失真验证，与用户实际感知的语音理解容易度之间的关联并不明确。为此，研究团队构建了一个大规模的感知数据集，并基于深度学习开发了全新的预测模型。

数据收集过程通过网站进行。自报有听力损失的访客自愿参与盲听测试，测试采用MUSHRA启发的方法，参与者对83款市售助听器在72种真实声学场景下的双耳录音进行“理解容易度”五级评分。经过严格的质量筛选，最终获得104298条有效评分，涵盖10394段双耳声学模型录音。这一数据集规模之大在助听器领域尚属首次。

在模型开发中，研究者将助听器处理后的音频与匹配的干净语音参考同时输入冻结的Whisper编码器。Whisper是一个大规模预训练的语音处理模型，冻结其参数可以保留预训练知识。通过计算两者内部表征的差异，得到一个差异嵌入，随后训练一个小型多层感知器（MLP）来预测用户评分。该模型在未见过的设备上进行测试，结果显示其在场景级别的总体相关系数为0.92，显著高于HASPIv2的0.83。在不同声学条件下，模型表现同样优越：嘈杂场景相关系数0.89（HASPIv2为0.75），安静场景0.79（HASPIv2为0.58）。值得注意的是，在嘈杂场景中，模型的性能达到了评分者间信度（split-half reliability）的上限，这意味着其预测能力已接近人工评分的上限。此外，模型对增益和信噪比的受控变化也表现出合理的敏感性。

这项研究不仅首次提供了如此大规模的真实助听器感知数据集，还提出了一种直接预测用户主观感受的学习型指标。该数据集和模型有望推动助听器性能评估标准的革新，为消费者提供更可靠的购买参考。