AI News HubLIVE
站内改写2 分で読了

Nemotron 3.5 ASRを言語、ドメイン、アクセントに合わせてファインチューニングする方法

NVIDIAは、600Mパラメータのストリーミング多言語音声認識モデル「Nemotron 3.5 ASR」を発表しました。このモデルは40の言語ロケールを単一チェックポイントでサポートし、低遅延、高精度、句読点と大文字化を内蔵しています。記事では、特定の言語、ドメイン、アクセントにモデルをファインチューニングする方法を詳しく説明し、ギリシャ語とブルガリア語での顕著なWER削減を例示しています。

NVIDIAは、人気のあった英語専用モデルNemotron 3 ASRの後継として、Nemotron 3.5 ASRをリリースしました。この新しいモデルは600Mパラメータを持ち、単一のチェックポイントから40の言語ロケールをリアルタイムで文字起こしし、句読点と大文字化を内蔵しています。Artificial Analysisによる独立したベンチマークでは、ストリーミングASRモデルの中でレイテンシーが2位(発話終了後わずか0.07秒で最終文字起こしを生成)であり、AA-WERストリーミングインデックスと最終文字起こし時間のリーダーボードで「最も魅力的な象限」に位置し、精度とレイテンシーのトレードオフにおいて優れたモデルとして評価されています。

現在の多言語音声認識にはいくつかの主要な問題があります。多言語をサポートするために複数のモデルやAPIを統合する必要があり、インフラストラクチャが複雑化します。ストリーミングと精度の両立が難しく、多くのシステムは重複するオーディオウィンドウを繰り返し処理してストリーミングを模倣するため、計算リソースを消費し遅延が増加します。後処理パイプラインが必要で、句読点や大文字化を追加するための別のモデルが必要になります。また、通常は事前に言語を指定する必要があり、言語が切り替わる状況に対応できません。Nemotron 3.5 ASRは、これらすべての問題を1つのモデルで解決するように設計されています。

このモデルのコアアーキテクチャは、Cache-Aware FastConformerエンコーダー(24層)とRNNTデコーダーで構成されています。エンコーダーは以前のセルフアテンションと畳み込みの活性化をキャッシュすることで、重複計算を回避し、真の低遅延ストリーミングを実現します。また、モデルは言語条件付けをサポートしており、ユーザーは入力言語を指定して最高の精度を得るか、自動モードでモデルに言語を検出させることができます。

モデルは重要なパラメータatt_context_sizeを提供し、レイテンシーと精度のトレードオフを制御します。異なるコンテキストサイズは、超低遅延の音声アシスタントから高精度のオフライン文字起こしまで、さまざまなユースケースに対応し、再トレーニングなしで推論時に選択できます。

記事ではファインチューニングのプロセスに重点を置いています。トレーニングデータの一部の言語はリソースが少ないため、これらの言語に対するファインチューニングはパフォーマンスを大幅に向上させることができます。例としてギリシャ語とブルガリア語を取り上げ、研究チームは公開多言語コーパスから約2000時間のデータを収集し、FLEURSテストセットで評価しました。最も低いレイテンシー設定(80msチャンク)では、ギリシャ語のWERが35%から24%(相対改善32%)、ブルガリア語が22%から15%(相対改善31%)に低下しました。さらに約2000時間の議会音声データを追加すると、ブルガリア語のWERは20%近くまで改善され、さらなるデータが継続的に改善をもたらすことが確認されました。

ファインチューニングのプロセスは5つのステップで構成されます。言語タグ付きのtarredデータの準備、基本チェックポイントからのフルモデルファインチューニング、ホールドアウトデータセットでの評価、必要に応じたデータ追加と再トレーニング、ファインチューニングされたチェックポイントのエクスポートとデプロイです。ファインチューニングされたモデルは基本モデルと同じアーキテクチャであるため、そのまま同じサービングパスにデプロイでき、推論時に同じレイテンシーと精度の操作点を選択できます。