面向ASR错误纠正的误差感知TF-IDF检索增强生成
提出一种利用误差感知TF-IDF检索的框架来纠正ASR系统中的幻觉错误,在波斯语FLEURS数据集上显著提升了词错误率。
自动语音识别(ASR)系统在现代应用中扮演着关键角色,但在处理罕见实体和领域特定术语时,尤其是在低资源语言场景下,常常产生所谓的“幻觉”错误。这些错误不仅影响用户体验,还可能对关键任务造成严重后果。为了应对这一挑战,检索增强生成(RAG)框架结合大语言模型(LLM)被提出作为一种有效的解决方案。然而,现有方法存在明显缺陷:标准稀疏检索方法忽略了语音误识别模式,而跨模态嵌入方法虽然准确但引入了高延迟。
针对这一问题,一项新研究提出了一种高效的纯词汇级误差感知框架,专门用于纠正ASR系统中的语音幻觉和循环幻觉。该方法的核心创新包括一个对称文本归一化模块和一个新颖的误差感知TF-IDF算法。通过基于历史错误构建稀疏对角惩罚矩阵,检索器能够数学上优先选择包含高风险误识别的纠正文档,从而显著提升检索的命中率。
研究人员在FLEURS数据集的波斯语子集上进行了评估。实验结果表明,所提出的方法将误差感知命中率从53.7%大幅提升至90.9%。更令人印象深刻的是,在端到端评估中,该集成框架将最终词错误率从23.06%降低到18.83%,同时实现了近乎为零的推理延迟。这意味着该方法在保持高效率的同时,显著提高了ASR系统的准确性。
这项研究由Mohammad Aref Jafari-Raddani等人完成,论文于2026年6月19日提交至arXiv,共4页,包含1张图和2个表格。研究主题涵盖计算与语言、人工智能和信息检索。该工作为低资源语言ASR错误纠正提供了一种轻量级且高效的解决方案,具有重要的实际应用价值。未来,该方法有望推广到更多语言和领域,进一步推动ASR技术的发展。