2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

你在説我的語言嗎？多模態大語言模型中的口語依從性研究

該論文研究了多模態大語言模型在語音識別中誤識別輸出語言的問題，提出了一種軟提示方法，並定義了語言依從性指標，評估了零樣本提示、監督微調和思維鏈推理三種緩解策略。

來源arXiv Computational Linguistics作者: Hyungwon Kim, Kandarp Joshi, Lillian Zhou, Pavel Golik, Petar Aleksic

近日，一篇題為《Are you speaking my languages? On spoken language adherence in multimodal LLMs》的論文提交至arXiv，由Hyungwon Kim等五位作者共同完成。該論文聚焦於多模態大語言模型（LLM）在自動語音識別（ASR）中的語言依從性問題，旨在解決模型在轉錄過程中頻繁誤識別輸出語言的挑戰。儘管基於LLM的ASR系統能夠支持無縫的多語言使用和代碼切換，但模型常常錯誤地識別輸出語言，導致轉錄保真度下降，進而影響下游應用的質量。

為了在保持靈活性的同時減少語言錯誤，研究團隊提出了一種軟提示（soft prompting）方法。這種方法通過暗示可能的語言選項來引導模型，而不是嚴格約束輸出，從而保留了代碼切換的能力。論文正式將這一問題定義為“缺乏語言依從性”，並引入了一個新的量化指標來衡量語言違規行為。該指標能夠客觀評估模型在輸出時是否遵循了預期的語言。

研究者評估了三種緩解策略：零樣本提示（zero-shot prompting）能夠在不確定情況下提供魯棒的指導；監督微調（SFT）通過訓練數據提高模型對提示的依從性；思維鏈（CoT）推理則在解碼過程中強制模型遵守語言約束。通過多語言的比較分析，團隊評估了這些策略在減少語言違規方面的有效性，同時確保整體ASR性能不受顯著影響。實驗結果表明，每種策略都有其優缺點，需要根據具體應用場景和計算資源進行權衡。

論文最後討論了不同計算約束下的策略選擇，為實際部署提供了指導。這項研究對於提升多語言ASR系統的可靠性和用户體驗具有重要意義，尤其是在需要高精度轉錄的領域，如會議記錄、語音助手和多語言客服等。該研究涵蓋了計算語言學、音頻處理和語音處理等多個交叉學科，為未來LLM在語音識別中的應用提供了新的思路。