あなたは私の言語を話していますか?マルチモーダルLLMにおける音声言語順守
本論文は、LLMベースの音声認識における言語誤認識の問題に対処し、ソフトプロンプティング手法を提案、言語順守指標を定義し、ゼロショットプロンプティング、教師ありファインチューニング、思考連鎖推論の3つの緩和戦略を評価する。
最近、arXivに投稿された論文「Are you speaking my languages? On spoken language adherence in multimodal LLMs」は、Hyungwon Kim氏ら5名の著者によるもので、マルチモーダル大規模言語モデル(LLM)の自動音声認識(ASR)における言語順守の問題に焦点を当てています。LLMベースのASRは多言語のシームレスな利用を可能にしますが、モデルが出力言語を誤認識することが多く、転写の忠実性や下流アプリケーションの品質を損なっています。研究チームは、柔軟性とコードスイッチング能力を維持するために、出力を厳しく制約せずに潜在的な音声言語を示唆するソフトプロンプティング手法を提案しました。
論文はこの課題を「言語順守の欠如」と正式に定義し、違反を定量化する新しい指標を導入しました。さらに、3つの緩和戦略を評価しています。(1)不確実性下でのロバストなガイダンスのためのゼロショットプロンプティング、(2)プロンプト順守を改善するための教師ありファインチューニング(SFT)、(3)デコード中の順守を強制する思考連鎖(CoT)推論。複数言語にわたる比較分析により、全体的なASR性能を維持しながら言語違反を削減する効果を評価しました。各戦略にはそれぞれ長所と短所があり、特定の用途や計算リソースに応じて選択する必要があります。
最後に、論文はさまざまな計算制約下での戦略選択のトレードオフについて議論しており、実用的な展開の指針を提供しています。この研究は、会議の文字起こし、音声アシスタント、多言語カスタマーサービスなど、高精度な転写が求められる分野で特に重要です。また、計算言語学、音響処理、音声処理の分野にまたがる知見を結集しており、将来のLLMベースの音声認識の改善に貢献することが期待されます。