多模态语音模型存在面部偏见:研究发现外貌影响识别准确率
一项最新研究首次系统评估了多模态语音识别中的偏见问题。研究发现,当不同面孔与相同音频配对时,模型的转录准确率出现显著差异,尤其是涉及性别和种族交叉时,词错误率最高可差4.05个百分点。这表明,增加模态并非一定提升性能,反而可能引入新的偏见。
近年来,大型神经网络在语言任务上表现日益出色,研究人员开始构建能够处理多种数据模态的多模态甚至全模态模型。例如,语音识别模型已扩展至音频-视觉数据,用于噪声抑制和多模态字幕生成。尽管单模态下的性能与偏见研究已相对充分,但新模态如何影响偏见尚不明确,而人类认知中视觉信息确实会引发偏见。
为了填补这一空白,来自阿姆斯特丹大学等机构的研究者提出了首个多模态语音识别的偏见评估框架。他们创建了包含不同面孔和相同音频的视频,测量模型在转录时的准确率变化。实验涉及mWhisper-Flamingo和Gemini两个多模态模型,重点关注自我报告的性别、种族及其交叉类别。
结果发现了显著的质量服务差异:模型在转录不同群体语音时,词错误率(WER)波动最高达4.05个百分点。例如,某些面孔组合下的WER明显高于其他组合,且这类差异在性别与种族交叉分析中更为突出。这表明,模型并非“一视同仁”,而是对特定外貌特征产生了系统性偏差。
研究团队强调,这一发现对开发者具有重要意义。增加数据模态并非总是提升性能的银弹,反而可能引入新的偏见来源。因此,在多模态系统部署前,需全面评估其公平性,并采取缓解措施。同时,向用户透明地沟通这些限制也至关重要。
该研究以预印本形式发布于arXiv,题为“Your Multimodal Speech Model Says I Have a Face for Radio”,论文编号2605.30472。相关代码和数据已公开,供后续研究参考。研究者来自阿姆斯特丹大学,包括Maya K. Nachesa、Vlad Niculae和Vagrant Gautam。他们计划进一步扩大研究范围,探索更多模态组合下的偏见模式。