面向英中語碼轉換語音識別的直接偏好最佳化方法在音訊大語言模型中的應用
音訊大語言模型在轉錄英中混合語音時存在系統性失敗模式,包括語言遺漏、翻譯代替轉錄和幻覺。研究者採用直接偏好最佳化(DPO)方法,構建偏好對訓練模型,使其學會保留混合語言內容而非翻譯。在三個模型上使用10萬對(570小時)資料訓練後,模型行為得到顯著改善:分佈內詞錯誤率(MER)最高降低89.6%,分佈外降低20.0%。
文章情報
要點
- 英中語碼轉換中音訊LLM有三種失敗模式:語言遺漏、翻譯代替轉錄、幻覺。
- DPO透過偏好對(選擇保留混合語言,拒絕模仿失敗模式)對齊模型。
- 訓練後MER在分佈內降低89.6%,分佈外降低20.0%。
為什麼重要
這條新聞值得關注,因為英中語碼轉換中音訊LLM有三種失敗模式:語言遺漏、翻譯代替轉錄、幻覺。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
音訊大語言模型(Audio LLMs)雖然在多語言處理方面表現出色,但在轉錄語碼轉換(Code-Switching)語音時卻存在系統性缺陷。語碼轉換指在同一會話中混合使用兩種或多種語言,例如英語和中文的交替使用。一項最新研究聚焦英中語碼轉換,系統分析了音訊LLM面臨的挑戰,並提出利用直接偏好最佳化(DPO)方法來解決這一問題。
該研究首先識別出音訊LLM在轉錄英中混合語音時的三種主要失敗模式:語言遺漏(完全忽略某種語言)、翻譯代替轉錄(將語音內容翻譯成另一種語言而非原樣轉錄)以及幻覺(生成不存在的內容)。為了糾正這些行為,研究者採用DPO技術,透過構造偏好對來對齊模型:其中“選擇”響應保留混合語言內容,而“拒絕”響應模仿上述失敗模式。實驗中,研究者在三個不同的音訊LLM上使用了10萬對偏好資料(總計570小時語音),並觀察到了一致的行為轉變——模型開始學會在轉錄時保持語言組成,而不是將其翻譯成單一語言。
結果令人鼓舞:經過DPO對齊後,模型在分佈內(與訓練資料相似的環境)的詞彙錯誤率(MER)最高降低了89.6%,在分佈外(全新場景)也降低了20.0%。這些發現表明,DPO能夠有效引導多語言音訊LLM正確轉錄語碼轉換語音,為該領域的進一步研究提供了重要方向。此外,該研究還強調了構建高質量偏好資料的重要性,併為未來的多語言語音識別系統設計提供了新的思路。研究人員認為,這種方法不僅適用於英中語碼轉換,還可能擴充套件到其他語言對,從而推動語碼轉換語音識別技術的整體進步。