SpeechDx:临床语音AI的多任务基准测试
SpeechDx是一个大规模基准测试,涵盖12个数据集和27个任务,用于评估临床语音AI。它按语音产生阶段组织任务,测试模型泛化能力。评估12种音频编码器发现,大规模语音模型表现最佳,但尚无通用表示。
语音作为健康指标具有独特优势,因为它同时涉及神经、运动、呼吸和发声系统。然而,当前临床语音AI的研究大多局限于特定疾病,导致不同研究之间难以比较,泛化能力评估也面临挑战。为了解决这一问题,研究团队提出了SpeechDx——一个大规模的临床语音AI基准测试,覆盖12个数据集和27个任务,涉及多种健康状况,包括帕金森病、阿尔茨海默病、抑郁症、自闭症谱系障碍等。这些数据集来自不同的研究机构,包含多种语言和录音条件,从而确保评估的多样性和真实性。
SpeechDx的创新之处在于根据语音产生的阶段来组织任务:概念化(conceptualization)、构词(formulation)和发音(articulation)。概念化阶段涉及思维形成和意图规划,构词阶段涉及语法和词汇选择,发音阶段涉及肌肉协调和声音产生。这种结构使得评估能够聚焦于共同的临床机制,例如,构音障碍可能反映发音阶段的损伤,而失语症则可能影响概念化或构词阶段。基准测试通过包含少量标注数据的任务,并在多个数据集上评估同一健康状况,来测试模型的泛化能力,从而区分临床上有效的模式与数据集伪影。例如,一个模型在来自医院A的帕金森病数据集上表现良好,但在来自医院B的数据集上表现下降,这可能表明模型学到了数据集的特定特征而非通用疾病标志。
研究团队系统评估了12种最先进的音频编码器,包括大规模预训练语音模型(如Wav2Vec 2.0、HuBERT)和领域特定模型(如针对病理语音优化的编码器)。评估涵盖了所有27个任务,并进行了零样本跨条件迁移测试,即在一组疾病上训练,在另一组疾病上测试。结果表明,大规模语音模型在整体上表现最为强劲,尤其是在跨条件迁移场景中,而领域特定模型仅在与其训练任务高度匹配的任务上有所提升。然而,没有任何一种表示能够在所有任务和条件下可靠地泛化,说明通用临床语音表示仍是一个未解决的问题。
SpeechDx旨在建立一个共同的评估框架,以跟踪通用临床语音表示的进展。它提供了标准化的数据划分、评估指标和基线结果,使研究人员能够公平比较不同方法。此外,SpeechDx还开放了代码和数据集指南,鼓励社区参与和改进。这项工作的意义在于,它为临床语音AI从孤立研究向统一发展迈出了关键一步,有望加速AI在疾病筛查、远程监测和辅助诊断中的实际应用。