AI News HubLIVE
站內改寫1 分鐘閱讀

基於圖論的語音錯誤校正:噪聲ASR的聲學糾錯新框架

針對自動語音識別(ASR)系統在命名實體、否定詞等關鍵語義標記上殘留的聲學相似性錯誤,研究人員提出G-SPIN框架,將聲學圖建模與上下文語言理解相結合,利用圖神經網路生成候選詞集,掩碼語言模型評分,最終由大語言模型重排序,實現輕量級、模組化的推理時糾錯。

來源arXiv Computational Linguistics作者: Pratik Rakesh Singh, Mohammadi Zaki, Aneesh Mukkamala, Pankaj Wasnik

自動語音識別(ASR)系統雖然在整體詞錯誤率上取得了顯著下降,但在命名實體、否定詞和情感詞等語義關鍵標記上仍然存在殘留的詞彙錯誤。這些錯誤並非隨機噪聲,而是由聲學相似性引發的結構性偏差。例如,單詞“not”可能被誤識別為“lot”,“like”可能被誤識別為“lime”。傳統的詞級校正方法依賴於語言模型的區域性上下文,往往難以處理這類聲學混淆,導致關鍵語義資訊的丟失。為了應對這一挑戰,來自研究團隊(Pratik Rakesh Singh 等)在ACL 2026工業軌道會議上提出了名為G-SPIN的結構化ASR糾錯框架。

G-SPIN的核心設計思想是將聲學建模與上下文語義理解進行有機解耦。該框架採用三級流水線結構:首先,透過圖神經網路(GNN)為被標記的可疑詞構建一個緊湊的聲學合理候選鄰域。這一步驟利用聲學相似性圖譜,將校正搜尋空間嚴格限制在那些在發音上接近的替代詞上,從而避免了無限搜尋帶來的效率問題。接著,一個掩碼語言模型(MLM)對候選集中的每個詞進行區域性上下文評分,初步篩選出語義可行的選項。最後,經過指令微調的大語言模型(LLM)在精簡後的候選集上執行上下文感知的重排序,選出最準確的校正結果。

這種分層設計的優勢在於它巧妙地將結構化的聲學推理與靈活的語義選擇分離開來。與直接使用大語言模型進行開放式生成不同,G-SPIN僅在LLM階段處理經過聲學預篩選的少量候選詞,從而大幅降低了引入無關新錯誤的風險。同時,整個框架是輕量且模組化的,完全在推理時執行,無需對現有的ASR系統進行重新訓練或微調,便於整合到工業級流水線中。實驗結果表明,該方法在關鍵語義標記的識別準確率上取得了顯著提升,為自動語音識別後處理提供了一種高效且實用的解決方案。