AI News HubLIVE
站内改写2 分で読了

文字起こしを超えて:ASRモデルが200ミリ秒で言葉、感情、意図を提供

WhissleのMETA-1は、単一のフォワードパスで文字起こしとメタデータ(感情、意図、年齢、性別など)を約200ミリ秒のレイテンシで同時に出力するメタ認識型ASRモデルです。KenLM n-gram言語モデルを統合することで、4言語で最大3.6%絶対値(相対10.8%)の単語誤り率削減を達成し、Deepgram、AssemblyAI、Gemini 2.0 Flashなどの商用ソリューションと比較してメタデータ抽出が9倍高速です。

ソースHacker News AI著者: ksingla025

Whissleの研究チームは、新しい音声認識手法「Meta-aware Voice Action Model(META-1)」を発表しました。このモデルは、単一のフォワードパスで文字起こしテキストと豊富なメタデータ(感情、意図、年齢、性別、話者変更など)を同時に出力します。従来の音声認識システムはテキストのみを出力し、追加情報を得るには複数のAPIを呼び出す必要があり、レイテンシとコストが増加していました。Whissleのモデルはすべての情報を1つのストリームに統合し、レイテンシは約200ミリ秒で、最も近いメタデータソリューションより9倍高速です。

しかし、CTCベースのモデルには既知の弱点があります。フレームごとに独立してデコードするため、言語知識が欠如し、誤った単語境界や非単語の推測が発生しやすくなります。語彙に約10,000のメタデータトークンと約8,000のテキストトークンが含まれる場合、問題はさらに悪化します。Whissleの解決策は、従来のn-gram言語モデル(KenLM)を使用することです。これは本質的に単語シーケンス確率のルックアップテーブルであり、サブミリ秒で動作し、GPUを必要とせず、幻覚のリスクもありません。ビームサーチアルゴリズムにより、システムは複数の仮説を探索し、n-gram言語モデルでスコアリングして、最も合理的な単語シーケンスを選択します。

Whissleは4言語(英語、スペイン語、ドイツ語、ヒンディー語)でシステムをベンチマーク評価し、1,300の実世界オーディオサンプルと5つのプロバイダ構成を使用しました。結果、言語モデルによりドイツ語とスペイン語で単語誤り率が最大3.6%絶対値(相対10.8%)削減され、同時にモデルは約200ミリ秒のレイテンシで感情、意図、人口統計情報をストリーミングしました。比較対象のDeepgram Nova-3、AssemblyAI Universal Streaming、Gemini 2.0 Flashのメタデータ抽出レイテンシは0.9秒から2.2秒でした。

テストは公平な比較方法を採用しました。すべてのプロバイダは同一のオーディオ(PCM int16、モノラル、16kHz)を受信し、同じテキスト正規化基準でWERを計算しました。データセットにはLibriSpeech(英語)、Multilingual LibriSpeech(スペイン語とドイツ語)、Meta STT Hindi(ヒンディー語)が含まれます。Whissleの2つの構成(貪欲デコードとLM付きビームサーチ)は、Deepgram、AssemblyAI、Geminiと比較されました。特に、Gemini 2.0 FlashはバッチLLMであり、ストリーミングASRサービスではないため、そのレイテンシは完全に異なるアーキテクチャを表しています。

n-gram言語モデルの重要な革新点は、Whissleの音響モデルのトレーニングデータからのテキスト転写を使用してトレーニングされていることです。これにより、音響モデルが見るドメインとの高い整合性が保証されます。トレーニングプロセスには、参照転写の抽出、テキスト正規化、KenLMを使用した3-gramモデルのトレーニング、およびプルーニング戦略の適用が含まれます。最終的に、各言語グループに対応するバイナリ言語モデルファイルが生成され、サーバー起動時にロードされます。

CTCビームサーチの浅い融合技術により、音響モデルスコアと言語モデルスコアが結合され、メタデータトークンの予測を妨げることなく、文字起こしの精度が効果的に向上します。メタデータトークンはlog-softmax正規化後に抑制されるため、言語モデルはテキストトークンにのみ作用し、正しい確率分布が維持されます。

このブレークスルーにより、リアルタイム音声アプリケーションは、複雑なマルチシステム統合を必要とせずに、高精度な文字起こしと豊富なメタデータを同時に取得できます。Whissleは、この技術がカスタマーサービス、会議文字起こし、音声アシスタントなどの分野で重要な役割を果たすと期待しています。