2026-06-17站内改写1 分钟阅读更新: 2026-06-17

你在说我的语言吗？多模态大语言模型中的口语依从性研究

该论文研究了多模态大语言模型在语音识别中误识别输出语言的问题，提出了一种软提示方法，并定义了语言依从性指标，评估了零样本提示、监督微调和思维链推理三种缓解策略。

来源arXiv Computational Linguistics作者: Hyungwon Kim, Kandarp Joshi, Lillian Zhou, Pavel Golik, Petar Aleksic

近日，一篇题为《Are you speaking my languages? On spoken language adherence in multimodal LLMs》的论文提交至arXiv，由Hyungwon Kim等五位作者共同完成。该论文聚焦于多模态大语言模型（LLM）在自动语音识别（ASR）中的语言依从性问题，旨在解决模型在转录过程中频繁误识别输出语言的挑战。尽管基于LLM的ASR系统能够支持无缝的多语言使用和代码切换，但模型常常错误地识别输出语言，导致转录保真度下降，进而影响下游应用的质量。

为了在保持灵活性的同时减少语言错误，研究团队提出了一种软提示（soft prompting）方法。这种方法通过暗示可能的语言选项来引导模型，而不是严格约束输出，从而保留了代码切换的能力。论文正式将这一问题定义为“缺乏语言依从性”，并引入了一个新的量化指标来衡量语言违规行为。该指标能够客观评估模型在输出时是否遵循了预期的语言。

研究者评估了三种缓解策略：零样本提示（zero-shot prompting）能够在不确定情况下提供鲁棒的指导；监督微调（SFT）通过训练数据提高模型对提示的依从性；思维链（CoT）推理则在解码过程中强制模型遵守语言约束。通过多语言的比较分析，团队评估了这些策略在减少语言违规方面的有效性，同时确保整体ASR性能不受显著影响。实验结果表明，每种策略都有其优缺点，需要根据具体应用场景和计算资源进行权衡。

论文最后讨论了不同计算约束下的策略选择，为实际部署提供了指导。这项研究对于提升多语言ASR系统的可靠性和用户体验具有重要意义，尤其是在需要高精度转录的领域，如会议记录、语音助手和多语言客服等。该研究涵盖了计算语言学、音频处理和语音处理等多个交叉学科，为未来LLM在语音识别中的应用提供了新的思路。