2026-06-06 15:55 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA發佈Nemotron 3.5 ASR：600M參數緩存感知流式模型，實時轉錄40種語言區域

NVIDIA發佈了Nemotron 3.5 ASR，這是一個600M參數的流式自動語音識別模型，採用緩存感知的FastConformer-RNNT架構，支持40種語言區域的實時轉錄，且內置標點和大小寫功能。模型以開放權重形式發佈在Hugging Face上，許可協議為OpenMDW-1.1。

來源MarkTechPost作者: Asif Razzaq

NVIDIA的Nemotron語音團隊發佈了Nemotron 3.5 ASR，這是一個擁有6億參數的流式自動語音識別（ASR）模型。單個檢查點即可實時轉錄40種語言區域，並原生支持標點和大寫。該模型以開放權重形式在Hugging Face上發佈，採用OpenMDW-1.1許可協議。其架構為緩存感知的FastConformer-RNNT。

Nemotron 3.5 ASR是什麼

Nemotron 3.5 ASR擴展了nvidia/nemotron-speech-streaming-en-0.6b模型，使其支持多種語言。它通過基於提示的語言ID條件化技術，使得一個6億參數的檢查點就能覆蓋40種語言區域，無需為每種語言單獨建模或切換模型。該模型面向兩種工作負載：低延遲的實時音頻流和高吞吐量的批量轉錄。輸出結果包含正確的大小寫和標點，無需額外的標點恢復步驟。

緩存感知的FastConformer-RNNT工作原理

模型主要由兩部分組成：一個24層的緩存感知FastConformer編碼器，以及一個RNNT解碼器。FastConformer是Conformer架構的高效進化，採用線性可擴展的注意力機制。RNNT解碼器在音頻流進入時逐幀生成文本。

“緩存感知”設計是其效率關鍵。傳統的緩衝流處理會在每一步重新處理重疊的音頻窗口，導致重複計算和延遲。而該模型緩存了編碼器的自注意力和卷積激活狀態，當新音頻到達時複用這些緩存狀態。因此，每個音頻幀僅處理一次，無重疊，計算和端到端延遲均降低，且不影響準確率。

延遲調節旋鈕：att_context_size

一個推理參數控制延遲與準確率的權衡：注意力上下文大小att_context_size。較小的上下文更快生成文本，但看到的未來音頻較少；較大的上下文在更高延遲下提升準確率。同一個檢查點覆蓋整個範圍，設置對應80ms、160ms、320ms、560ms和1.12s的塊大小。例如，[56,0]對應80ms超低延遲模式，[56,13]對應1.12s最高準確率模式。團隊可在推理時選擇操作點，無需重新訓練。

語言檢測與覆蓋

40種語言區域包括英語、西班牙語、德語、法語變體，以及阿拉伯語、日語、韓語、普通話、印地語和泰語等。語言條件化有兩種方式：將target_lang設置為已知區域通常獲得最佳準確率；設置為auto則讓模型自動檢測語言。在自動模式下，模型會在句末標點後輸出語言標籤。這樣一個部署即可轉錄混合語言流量，無需單獨的語言ID組件。

對比

下表展示了Nemotron 3.5 ASR與市場同類產品的對比：

| 產品 | 公司 | 訪問方式 | 原生流式 | 語言覆蓋 | 報告延遲 | 定價模式 | |------|------|----------|----------|----------|----------|----------| | Nemotron 3.5 ASR | NVIDIA | 開放權重（OpenMDW-1.1），自託管；DeepInfra託管 | 是——緩存感知FastConformer-RNNT | 40種語言區域 | 80ms–1.12s，推理時可配置 | 自託管免費；使用量計費 | | Whisper large-v3 | OpenAI | 開放權重（MIT），自託管；API | 否——離線/批量 | ~99種語言 | 非流式 | 自託管免費；API約$0.006/分鐘（批量） | | Nova-3 | Deepgram | 封閉API；本地/自託管（企業） | 是——流式+批量 | 多語言；2026年1月新增10種單語 | 低延遲流式（報道低於300ms） | 約$0.0077/分鐘（Nova-3單語，按量） | | Universal-3 Pro Streaming | AssemblyAI | 封閉API（提供歐盟端點） | 是 | 6種語言：英語、西班牙語、法語、德語、意大利語、葡萄牙語 | 低於300ms（官方）；首次部分結果約750ms | 按量計費 | | Scribe v2 Realtime | ElevenLabs | 封閉API | 是 | 90+種語言 | 約150ms（p50） | 約$0.28/小時 | | Ursa / streaming | Speechmatics | API + 本地 + 邊緣 | 是——流式+批量 | 50+種語言，自動識別 | 超低延遲（定位） | 企業/使用量 |

微調結果

由於權重開放，團隊可針對特定語言、領域或口音進行微調。NVIDIA發佈了希臘語和保加利亞語的微調示例。使用相同的緩存感知FastConformer-RNNT配方對基礎檢查點進行微調，每個片段帶有target_lang標籤。訓練數據來自公共語料庫，包括Granary、Common Voice和FLEURS。

結果以WER（詞錯誤率）在保留的FLEURS數據集上測量，採用80ms設置。希臘語WER從35降至24，相對提升32%；保加利亞語從22降至15，相對提升31%。這些是在最低延遲流式模式下的原始WER百分比。NVIDIA指出，在部署延遲下對保留數據進行評估能提供真實數字。

優勢與考慮

優勢：

一個6億參數檢查點覆蓋40種語言區域，減少部署複雜性。
緩存感知流式處理每個幀一次，報道稱在H100上可實現17倍於緩衝方法的併發流。
att_context_size可在推理時將延遲從80ms調整到1.12s，無需重新訓練。
內置標點、大寫和自動語言標記。
開放權重使得微調後希臘語和保加利亞語WER相對降低31-32%。

考慮：

模型支持英語，但NVIDIA建議英語專用場景使用其專用英語模型。
80ms模式為最低延遲犧牲了一些準確率。
日語和韓語使用CER，跨語言錯誤比較需謹慎。
吞吐量數據在H100上測量，其他GPU結果會不同。
生產級NIM（含gRPC流式）已宣佈但尚未發佈。

關鍵要點

NVIDIA的Nemotron 3.5 ASR是一個開放權重（OpenMDW-1.1）、6億參數的流式模型，單個檢查點可轉錄40種語言區域。其緩存感知FastConformer-RNNT設計使每個音頻幀僅處理一次，報道稱在H100上併發流是緩衝方法的17倍。推理時可通過att_context_size配置延遲，範圍80ms至1.12s，無需重新訓練。簡短微調後在FLEURS上使希臘語WER降低32%（35→24），保加利亞語降低31%（22→15）。該模型可自託管且流式原生，區別於封閉API或離線的Whisper。

更多信息請查看模型權重，也可關注我們的Twitter、加入150k+ ML SubReddit或訂閲我們的Newsletter。