基于图论的语音错误校正:噪声ASR的声学纠错新框架
针对自动语音识别(ASR)系统在命名实体、否定词等关键语义标记上残留的声学相似性错误,研究人员提出G-SPIN框架,将声学图建模与上下文语言理解相结合,利用图神经网络生成候选词集,掩码语言模型评分,最终由大语言模型重排序,实现轻量级、模块化的推理时纠错。
自动语音识别(ASR)系统虽然在整体词错误率上取得了显著下降,但在命名实体、否定词和情感词等语义关键标记上仍然存在残留的词汇错误。这些错误并非随机噪声,而是由声学相似性引发的结构性偏差。例如,单词“not”可能被误识别为“lot”,“like”可能被误识别为“lime”。传统的词级校正方法依赖于语言模型的局部上下文,往往难以处理这类声学混淆,导致关键语义信息的丢失。为了应对这一挑战,来自研究团队(Pratik Rakesh Singh 等)在ACL 2026工业轨道会议上提出了名为G-SPIN的结构化ASR纠错框架。
G-SPIN的核心设计思想是将声学建模与上下文语义理解进行有机解耦。该框架采用三级流水线结构:首先,通过图神经网络(GNN)为被标记的可疑词构建一个紧凑的声学合理候选邻域。这一步骤利用声学相似性图谱,将校正搜索空间严格限制在那些在发音上接近的替代词上,从而避免了无限搜索带来的效率问题。接着,一个掩码语言模型(MLM)对候选集中的每个词进行局部上下文评分,初步筛选出语义可行的选项。最后,经过指令微调的大语言模型(LLM)在精简后的候选集上执行上下文感知的重排序,选出最准确的校正结果。
这种分层设计的优势在于它巧妙地将结构化的声学推理与灵活的语义选择分离开来。与直接使用大语言模型进行开放式生成不同,G-SPIN仅在LLM阶段处理经过声学预筛选的少量候选词,从而大幅降低了引入无关新错误的风险。同时,整个框架是轻量且模块化的,完全在推理时运行,无需对现有的ASR系统进行重新训练或微调,便于集成到工业级流水线中。实验结果表明,该方法在关键语义标记的识别准确率上取得了显著提升,为自动语音识别后处理提供了一种高效且实用的解决方案。