オーディオ大規模言語モデルにおける英語と中国語のコードスイッチング音声認識のための直接選好最適化
オーディオ大規模言語モデルは、英語-中国語のコードスイッチング音声の書き起こしに系統的な失敗を示す。主要な障害として、言語の省略、翻訳による書き起こし、幻覚が特定された。本研究では、直接選好最適化(DPO)を適用し、10万ペア(570時間)の選好データで学習した結果、分布内で最大89.6%、分布外で20.0%の単語誤り率(MER)低減を達成した。
記事インテリジェンス
要点
- 英語-中国語コードスイッチングでの3つの失敗モード:言語省略、翻訳書き起こし、幻覚。
- DPOにより、混合言語を保持する応答を選好し、失敗パターンを拒否するようモデルを調整。
- 学習後、分布内MERが89.6%、分布外MERが20.0%改善。
重要な理由
このニュースが重要なのは、英語-中国語コードスイッチングでの3つの失敗モード:言語省略、翻訳書き起こし、幻覚ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
オーディオ大規模言語モデル(Audio LLM)は、多言語処理に優れているにもかかわらず、コードスイッチング音声(同一会話内で英語と中国語が混在する音声)の書き起こしにおいて系統的な失敗を起こすことが知られている。最新の研究では、この問題に焦点を当て、3つの主要な失敗モード——言語の省略(一方の言語を完全に無視)、翻訳による書き起こし(音声をそのまま書き起こさず別の言語に翻訳する)、幻覚(存在しない内容を生成する)——を特定した。
この問題に対処するため、研究者らは直接選好最適化(DPO)を適用した。DPOでは、選好ペアを用いてモデルを調整する。選好される応答(chosen)は混合言語の内容を保持し、拒否される応答(rejected)は上記の失敗パターンを模倣する。実験では、3つの異なるAudio LLMに対し、10万ペア(総計570時間の音声データ)を使用して学習を行った。その結果、モデルは書き起こし時に言語構成を保持するようになり、翻訳する行動から一貫してシフトした。
性能評価では、分布内(学習データと類似した環境)で単語誤り率(MER)が最大89.6%低減し、分布外(未知の環境)でも20.0%の低減を達成した。この結果は、DPOが多言語Audio LLMにおけるコードスイッチング音声の正確な書き起こし行動を効果的に引き出せることを示しており、今後の研究に重要な示唆を与える。研究者らは、この手法が英語-中国語に限らず、他の言語ペアにも応用可能であり、コードスイッチング音声認識の分野全体の発展に寄与すると期待している。