面向英中语码转换语音识别的直接偏好优化方法在音频大语言模型中的应用
音频大语言模型在转录英中混合语音时存在系统性失败模式,包括语言遗漏、翻译代替转录和幻觉。研究者采用直接偏好优化(DPO)方法,构建偏好对训练模型,使其学会保留混合语言内容而非翻译。在三个模型上使用10万对(570小时)数据训练后,模型行为得到显著改善:分布内词错误率(MER)最高降低89.6%,分布外降低20.0%。
文章情报
要点
- 英中语码转换中音频LLM有三种失败模式:语言遗漏、翻译代替转录、幻觉。
- DPO通过偏好对(选择保留混合语言,拒绝模仿失败模式)对齐模型。
- 训练后MER在分布内降低89.6%,分布外降低20.0%。
为什么重要
这条新闻值得关注,因为英中语码转换中音频LLM有三种失败模式:语言遗漏、翻译代替转录、幻觉。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
音频大语言模型(Audio LLMs)虽然在多语言处理方面表现出色,但在转录语码转换(Code-Switching)语音时却存在系统性缺陷。语码转换指在同一会话中混合使用两种或多种语言,例如英语和中文的交替使用。一项最新研究聚焦英中语码转换,系统分析了音频LLM面临的挑战,并提出利用直接偏好优化(DPO)方法来解决这一问题。
该研究首先识别出音频LLM在转录英中混合语音时的三种主要失败模式:语言遗漏(完全忽略某种语言)、翻译代替转录(将语音内容翻译成另一种语言而非原样转录)以及幻觉(生成不存在的内容)。为了纠正这些行为,研究者采用DPO技术,通过构造偏好对来对齐模型:其中“选择”响应保留混合语言内容,而“拒绝”响应模仿上述失败模式。实验中,研究者在三个不同的音频LLM上使用了10万对偏好数据(总计570小时语音),并观察到了一致的行为转变——模型开始学会在转录时保持语言组成,而不是将其翻译成单一语言。
结果令人鼓舞:经过DPO对齐后,模型在分布内(与训练数据相似的环境)的词汇错误率(MER)最高降低了89.6%,在分布外(全新场景)也降低了20.0%。这些发现表明,DPO能够有效引导多语言音频LLM正确转录语码转换语音,为该领域的进一步研究提供了重要方向。此外,该研究还强调了构建高质量偏好数据的重要性,并为未来的多语言语音识别系统设计提供了新的思路。研究人员认为,这种方法不仅适用于英中语码转换,还可能扩展到其他语言对,从而推动语码转换语音识别技术的整体进步。