NVIDIA發佈Nemotron 3.5 ASR:600M參數緩存感知流式模型,實時轉錄40種語言區域
NVIDIA發佈了Nemotron 3.5 ASR,這是一個600M參數的流式自動語音識別模型,採用緩存感知的FastConformer-RNNT架構,支持40種語言區域的實時轉錄,且內置標點和大小寫功能。模型以開放權重形式發佈在Hugging Face上,許可協議為OpenMDW-1.1。
NVIDIA的Nemotron語音團隊發佈了Nemotron 3.5 ASR,這是一個擁有6億參數的流式自動語音識別(ASR)模型。單個檢查點即可實時轉錄40種語言區域,並原生支持標點和大寫。該模型以開放權重形式在Hugging Face上發佈,採用OpenMDW-1.1許可協議。其架構為緩存感知的FastConformer-RNNT。
Nemotron 3.5 ASR是什麼
Nemotron 3.5 ASR擴展了nvidia/nemotron-speech-streaming-en-0.6b模型,使其支持多種語言。它通過基於提示的語言ID條件化技術,使得一個6億參數的檢查點就能覆蓋40種語言區域,無需為每種語言單獨建模或切換模型。該模型面向兩種工作負載:低延遲的實時音頻流和高吞吐量的批量轉錄。輸出結果包含正確的大小寫和標點,無需額外的標點恢復步驟。
緩存感知的FastConformer-RNNT工作原理
模型主要由兩部分組成:一個24層的緩存感知FastConformer編碼器,以及一個RNNT解碼器。FastConformer是Conformer架構的高效進化,採用線性可擴展的注意力機制。RNNT解碼器在音頻流進入時逐幀生成文本。
“緩存感知”設計是其效率關鍵。傳統的緩衝流處理會在每一步重新處理重疊的音頻窗口,導致重複計算和延遲。而該模型緩存了編碼器的自注意力和卷積激活狀態,當新音頻到達時複用這些緩存狀態。因此,每個音頻幀僅處理一次,無重疊,計算和端到端延遲均降低,且不影響準確率。
延遲調節旋鈕:att_context_size
一個推理參數控制延遲與準確率的權衡:注意力上下文大小att_context_size。較小的上下文更快生成文本,但看到的未來音頻較少;較大的上下文在更高延遲下提升準確率。同一個檢查點覆蓋整個範圍,設置對應80ms、160ms、320ms、560ms和1.12s的塊大小。例如,[56,0]對應80ms超低延遲模式,[56,13]對應1.12s最高準確率模式。團隊可在推理時選擇操作點,無需重新訓練。
語言檢測與覆蓋
40種語言區域包括英語、西班牙語、德語、法語變體,以及阿拉伯語、日語、韓語、普通話、印地語和泰語等。語言條件化有兩種方式:將target_lang設置為已知區域通常獲得最佳準確率;設置為auto則讓模型自動檢測語言。在自動模式下,模型會在句末標點後輸出語言標籤。這樣一個部署即可轉錄混合語言流量,無需單獨的語言ID組件。
對比
下表展示了Nemotron 3.5 ASR與市場同類產品的對比:
| 產品 | 公司 | 訪問方式 | 原生流式 | 語言覆蓋 | 報告延遲 | 定價模式 | |------|------|----------|----------|----------|----------|----------| | Nemotron 3.5 ASR | NVIDIA | 開放權重(OpenMDW-1.1),自託管;DeepInfra託管 | 是——緩存感知FastConformer-RNNT | 40種語言區域 | 80ms–1.12s,推理時可配置 | 自託管免費;使用量計費 | | Whisper large-v3 | OpenAI | 開放權重(MIT),自託管;API | 否——離線/批量 | ~99種語言 | 非流式 | 自託管免費;API約$0.006/分鐘(批量) | | Nova-3 | Deepgram | 封閉API;本地/自託管(企業) | 是——流式+批量 | 多語言;2026年1月新增10種單語 | 低延遲流式(報道低於300ms) | 約$0.0077/分鐘(Nova-3單語,按量) | | Universal-3 Pro Streaming | AssemblyAI | 封閉API(提供歐盟端點) | 是 | 6種語言:英語、西班牙語、法語、德語、意大利語、葡萄牙語 | 低於300ms(官方);首次部分結果約750ms | 按量計費 | | Scribe v2 Realtime | ElevenLabs | 封閉API | 是 | 90+種語言 | 約150ms(p50) | 約$0.28/小時 | | Ursa / streaming | Speechmatics | API + 本地 + 邊緣 | 是——流式+批量 | 50+種語言,自動識別 | 超低延遲(定位) | 企業/使用量 |
微調結果
由於權重開放,團隊可針對特定語言、領域或口音進行微調。NVIDIA發佈了希臘語和保加利亞語的微調示例。使用相同的緩存感知FastConformer-RNNT配方對基礎檢查點進行微調,每個片段帶有target_lang標籤。訓練數據來自公共語料庫,包括Granary、Common Voice和FLEURS。
結果以WER(詞錯誤率)在保留的FLEURS數據集上測量,採用80ms設置。希臘語WER從35降至24,相對提升32%;保加利亞語從22降至15,相對提升31%。這些是在最低延遲流式模式下的原始WER百分比。NVIDIA指出,在部署延遲下對保留數據進行評估能提供真實數字。
優勢與考慮
優勢:
- 一個6億參數檢查點覆蓋40種語言區域,減少部署複雜性。
- 緩存感知流式處理每個幀一次,報道稱在H100上可實現17倍於緩衝方法的併發流。
- att_context_size可在推理時將延遲從80ms調整到1.12s,無需重新訓練。
- 內置標點、大寫和自動語言標記。
- 開放權重使得微調後希臘語和保加利亞語WER相對降低31-32%。
考慮:
- 模型支持英語,但NVIDIA建議英語專用場景使用其專用英語模型。
- 80ms模式為最低延遲犧牲了一些準確率。
- 日語和韓語使用CER,跨語言錯誤比較需謹慎。
- 吞吐量數據在H100上測量,其他GPU結果會不同。
- 生產級NIM(含gRPC流式)已宣佈但尚未發佈。
關鍵要點
NVIDIA的Nemotron 3.5 ASR是一個開放權重(OpenMDW-1.1)、6億參數的流式模型,單個檢查點可轉錄40種語言區域。其緩存感知FastConformer-RNNT設計使每個音頻幀僅處理一次,報道稱在H100上併發流是緩衝方法的17倍。推理時可通過att_context_size配置延遲,範圍80ms至1.12s,無需重新訓練。簡短微調後在FLEURS上使希臘語WER降低32%(35→24),保加利亞語降低31%(22→15)。該模型可自託管且流式原生,區別於封閉API或離線的Whisper。
更多信息請查看模型權重,也可關注我們的Twitter、加入150k+ ML SubReddit或訂閲我們的Newsletter。