2026-06-06 16:55 UTC+9サイト内リライト4 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA、Nemotron 3.5 ASRを発表：600Mパラメータのキャッシュ対応ストリーミングモデルが40言語をリアルタイムで文字起こし

NVIDIAはNemotron 3.5 ASRをリリースしました。これは600Mパラメータのストリーミング自動音声認識モデルで、キャッシュ対応FastConformer-RNNTアーキテクチャを採用し、40の言語ロケールをリアルタイムで文字起こしし、句読点や大文字化をネイティブサポートします。モデルはHugging Faceでオープンウェイトとして公開され、ライセンスはOpenMDW-1.1です。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

単一チェックポイントで40言語ロケールをカバー、モデル切り替え不要
キャッシュ対応設計により各オーディオフレームを一度だけ処理、レイテンシ低減
推論時にatt_context_sizeで80ms～1.12sのレイテンシ調整が可能
オープンウェイトによりファインチューニングが可能、ギリシャ語とブルガリア語でWERが約30%改善

重要な理由

このニュースが重要なのは、単一チェックポイントで40言語ロケールをカバー、モデル切り替え不要ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIAのNemotron音声チームは、Nemotron 3.5 ASRをリリースしました。これは6億パラメータのストリーミング自動音声認識（ASR）モデルです。単一のチェックポイントで40の言語ロケールをリアルタイムに文字起こしし、句読点と大文字化をネイティブにサポートします。モデルはオープンウェイトとしてHugging Faceで公開され、ライセンスはOpenMDW-1.1です。アーキテクチャはキャッシュ対応のFastConformer-RNNTです。

Nemotron 3.5 ASRとは

Nemotron 3.5 ASRは、nvidia/nemotron-speech-streaming-en-0.6bを拡張し、多言語対応を実現しました。プロンプトベースの言語ID条件付けをベースモデルに追加し、1つの6億パラメータチェックポイントで40の言語ロケールをカバーします。言語ごとのモデルやモデル切り替えは不要です。このモデルは、低遅延のライブオーディオストリーミングと高スループットのバッチ文字起こしの2つのワークロードを対象としています。出力は適切な大文字化と句読点を含むプロダクション対応テキストで、別途句読点復元ステップは不要です。

キャッシュ対応FastConformer-RNNTの仕組み

モデルは2つの主要部分で構成されています。24層のキャッシュ対応FastConformerエンコーダとRNNTデコーダです。FastConformerはConformerアーキテクチャを効率化したもので、線形スケーラブルなアテンションを採用しています。RNNTデコーダはオーディオストリームが入力されるのに応じてフレームごとにテキストを生成します。

「キャッシュ対応」設計は効率化の鍵です。バッファリングストリーミングでは、オーバーラップするオーディオウィンドウを毎ステップ再処理するため、同じ計算を繰り返し、遅延が増加します。このモデルでは代わりにエンコーダの自己アテンションと畳み込み活性化をキャッシュし、新しいオーディオが到着したときにこれらのキャッシュ状態を再利用します。そのため、各オーディオフレームは一度だけ処理され、オーバーラップはありません。計算とエンドツーエンドのレイテンシが低下し、精度への影響はありません。

レイテンシノブ：att_context_size

1つの推論設定でレイテンシと精度のトレードオフを制御できます。それはアテンションコンテキストサイズatt_context_sizeです。コンテキストが小さいほどテキストが早く生成されますが、将来のオーディオをあまり見ません。コンテキストが大きいほどレイテンシは増加しますが精度が向上します。同じチェックポイントでフルレンジをカバーし、設定は80ms、160ms、320ms、560ms、1.12sのチャンクサイズに対応します。例えば、[56,0]は80msの超低遅延モード、[56,13]は1.12sで最高精度を提供します。チームは推論時に動作点を選択でき、再トレーニングは不要です。

言語検出とカバレッジ

40の言語ロケールには、英語、スペイン語、ドイツ語、フランス語の変種が含まれます。また、アラビア語、日本語、韓国語、中国語（北京語）、ヒンディー語、タイ語なども含まれます。言語条件付けは2つの方法で行えます。target_langを既知のロケールに設定すると通常最高の精度が得られます。autoに設定するとモデルが言語を自動検出します。自動モードでは、文末の句読点の後に言語タグを出力します。これにより、1つのデプロイメントで混合言語トラフィックを文字起こしでき、別途言語IDコンポーネントは不要です。

比較

以下の表は、Nemotron 3.5 ASRと市場の類似製品を比較したものです。

| 製品 | 会社 | アクセス方法 | ネイティブストリーミング | 言語カバレッジ | 報告レイテンシ | 価格モデル | |------|------|------------|----------------------|--------------|--------------|----------| | Nemotron 3.5 ASR | NVIDIA | オープンウェイト（OpenMDW-1.1）、セルフホスト；DeepInfraホスト | はい — キャッシュ対応FastConformer-RNNT | 40言語ロケール | 80ms–1.12s、推論時に設定可能 | セルフホスト無料；利用量ベース | | Whisper large-v3 | OpenAI | オープンウェイト（MIT）、セルフホスト；API | いいえ — オフライン/バッチ | ~99言語 | ストリーミング非対応 | セルフホスト無料；API約$0.006/分（バッチ） | | Nova-3 | Deepgram | クローズドAPI；オンプレミス/セルフホスト（エンタープライズ） | はい — ストリーミング+バッチ | 多言語；2026年1月に10の単一言語追加 | 低遅延ストリーミング（報告サブ300ms） | 約$0.0077/分（Nova-3単一言語、PAYG） | | Universal-3 Pro Streaming | AssemblyAI | クローズドAPI（EUエンドポイント利用可能） | はい | 6言語：英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語 | サブ300ms（公式）；最初の部分結果約750ms | 利用量ベース（PAYG） | | Scribe v2 Realtime | ElevenLabs | クローズドAPI | はい | 90+言語 | 約150ms（p50） | 約$0.28/時間 | | Ursa / streaming | Speechmatics | API + オンプレミス + エッジ | はい — ストリーミング+バッチ | 50+言語、自動認識 | 超低遅延（ポジショニング） | エンタープライズ/利用量 |

ファインチューニング結果

ウェイトがオープンであるため、チームは言語、ドメイン、アクセントに合わせてファインチューニングできます。NVIDIAはギリシャ語とブルガリア語の実例を公開しました。ベースチェックポイントを同じキャッシュ対応FastConformer-RNNTレシピでファインチューニングし、各クリップにtarget_langタグを付けました。トレーニングデータはGranary、Common Voice、FLEURSなどの公開コーパスから取得しました。

結果は、80ms設定で保持されたFLEURSのWERで測定されました。ギリシャ語のWERは35から24へ（相対32%改善）、ブルガリア語は22から15へ（相対31%改善）低下しました。これらは最低遅延ストリーミングモードでの生のWERパーセンテージです。NVIDIAは、デプロイ時のレイテンシで保持データを評価することで、正直な数値が得られると述べています。

強みと考慮点

強み：

1つの6億パラメータチェックポイントで40言語ロケールをカバーし、デプロイの複雑さを低減。
キャッシュ対応ストリーミングにより各フレームを1回処理、H100でバッファ方式の17倍の同時ストリームを実現。
att_context_sizeにより推論時に80msから1.12sまでレイテンシを調整可能、再トレーニング不要。
句読点、大文字化、自動言語タグ付けを内蔵。
オープンウェイトにより、ギリシャ語とブルガリア語のファインチューニングでWERを31～32%相対改善。

考慮点：

モデルは英語を処理できるが、NVIDIAは英語のみの使用には専用の英語モデルを推奨。
80msモードは最低遅延と引き換えに精度を一部犠牲。
日本語と韓国語はCERを使用するため、言語間のエラー比較には注意が必要。
スループットデータはH100で測定されたため、他のGPUでは結果が異なる。
gRPCストリーミングを備えたプロダクションNIMは発表されたが、まだリリースされていない。

主要なポイント

NVIDIAのNemotron 3.5 ASRは、オープンウェイト（OpenMDW-1.1）の6億パラメータストリーミングモデルで、1つのチェックポイントから40言語ロケールを文字起こします。キャッシュ対応FastConformer-RNNT設計により、各オーディオフレームを1回処理し、H100でバッファ方式の17倍の同時ストリームを実現。レイテンシは推論時にatt_context_sizeで80msから1.12sまで設定可能、再トレーニング不要。短期間のファインチューニングでFLEURSのWERをギリシャ語で32%（35→24）、ブルガリア語で31%（22→15）削減。セルフホスト可能でストリーミングネイティブであり、クローズドAPIやオフラインのWhisperとは異なります。

詳細はモデルウェイトをご覧ください。Twitterでフォローしたり、150k+ ML SubRedditに参加したり、ニュースレターを購読することもできます。