NVIDIA发布Nemotron 3.5 ASR:600M参数缓存感知流式模型,实时转录40种语言区域
NVIDIA发布了Nemotron 3.5 ASR,这是一个600M参数的流式自动语音识别模型,采用缓存感知的FastConformer-RNNT架构,支持40种语言区域的实时转录,且内置标点和大小写功能。模型以开放权重形式发布在Hugging Face上,许可协议为OpenMDW-1.1。
NVIDIA的Nemotron语音团队发布了Nemotron 3.5 ASR,这是一个拥有6亿参数的流式自动语音识别(ASR)模型。单个检查点即可实时转录40种语言区域,并原生支持标点和大写。该模型以开放权重形式在Hugging Face上发布,采用OpenMDW-1.1许可协议。其架构为缓存感知的FastConformer-RNNT。
Nemotron 3.5 ASR是什么
Nemotron 3.5 ASR扩展了nvidia/nemotron-speech-streaming-en-0.6b模型,使其支持多种语言。它通过基于提示的语言ID条件化技术,使得一个6亿参数的检查点就能覆盖40种语言区域,无需为每种语言单独建模或切换模型。该模型面向两种工作负载:低延迟的实时音频流和高吞吐量的批量转录。输出结果包含正确的大小写和标点,无需额外的标点恢复步骤。
缓存感知的FastConformer-RNNT工作原理
模型主要由两部分组成:一个24层的缓存感知FastConformer编码器,以及一个RNNT解码器。FastConformer是Conformer架构的高效进化,采用线性可扩展的注意力机制。RNNT解码器在音频流进入时逐帧生成文本。
“缓存感知”设计是其效率关键。传统的缓冲流处理会在每一步重新处理重叠的音频窗口,导致重复计算和延迟。而该模型缓存了编码器的自注意力和卷积激活状态,当新音频到达时复用这些缓存状态。因此,每个音频帧仅处理一次,无重叠,计算和端到端延迟均降低,且不影响准确率。
延迟调节旋钮:att_context_size
一个推理参数控制延迟与准确率的权衡:注意力上下文大小att_context_size。较小的上下文更快生成文本,但看到的未来音频较少;较大的上下文在更高延迟下提升准确率。同一个检查点覆盖整个范围,设置对应80ms、160ms、320ms、560ms和1.12s的块大小。例如,[56,0]对应80ms超低延迟模式,[56,13]对应1.12s最高准确率模式。团队可在推理时选择操作点,无需重新训练。
语言检测与覆盖
40种语言区域包括英语、西班牙语、德语、法语变体,以及阿拉伯语、日语、韩语、普通话、印地语和泰语等。语言条件化有两种方式:将target_lang设置为已知区域通常获得最佳准确率;设置为auto则让模型自动检测语言。在自动模式下,模型会在句末标点后输出语言标签。这样一个部署即可转录混合语言流量,无需单独的语言ID组件。
对比
下表展示了Nemotron 3.5 ASR与市场同类产品的对比:
| 产品 | 公司 | 访问方式 | 原生流式 | 语言覆盖 | 报告延迟 | 定价模式 | |------|------|----------|----------|----------|----------|----------| | Nemotron 3.5 ASR | NVIDIA | 开放权重(OpenMDW-1.1),自托管;DeepInfra托管 | 是——缓存感知FastConformer-RNNT | 40种语言区域 | 80ms–1.12s,推理时可配置 | 自托管免费;使用量计费 | | Whisper large-v3 | OpenAI | 开放权重(MIT),自托管;API | 否——离线/批量 | ~99种语言 | 非流式 | 自托管免费;API约$0.006/分钟(批量) | | Nova-3 | Deepgram | 封闭API;本地/自托管(企业) | 是——流式+批量 | 多语言;2026年1月新增10种单语 | 低延迟流式(报道低于300ms) | 约$0.0077/分钟(Nova-3单语,按量) | | Universal-3 Pro Streaming | AssemblyAI | 封闭API(提供欧盟端点) | 是 | 6种语言:英语、西班牙语、法语、德语、意大利语、葡萄牙语 | 低于300ms(官方);首次部分结果约750ms | 按量计费 | | Scribe v2 Realtime | ElevenLabs | 封闭API | 是 | 90+种语言 | 约150ms(p50) | 约$0.28/小时 | | Ursa / streaming | Speechmatics | API + 本地 + 边缘 | 是——流式+批量 | 50+种语言,自动识别 | 超低延迟(定位) | 企业/使用量 |
微调结果
由于权重开放,团队可针对特定语言、领域或口音进行微调。NVIDIA发布了希腊语和保加利亚语的微调示例。使用相同的缓存感知FastConformer-RNNT配方对基础检查点进行微调,每个片段带有target_lang标签。训练数据来自公共语料库,包括Granary、Common Voice和FLEURS。
结果以WER(词错误率)在保留的FLEURS数据集上测量,采用80ms设置。希腊语WER从35降至24,相对提升32%;保加利亚语从22降至15,相对提升31%。这些是在最低延迟流式模式下的原始WER百分比。NVIDIA指出,在部署延迟下对保留数据进行评估能提供真实数字。
优势与考虑
优势:
- 一个6亿参数检查点覆盖40种语言区域,减少部署复杂性。
- 缓存感知流式处理每个帧一次,报道称在H100上可实现17倍于缓冲方法的并发流。
- att_context_size可在推理时将延迟从80ms调整到1.12s,无需重新训练。
- 内置标点、大写和自动语言标记。
- 开放权重使得微调后希腊语和保加利亚语WER相对降低31-32%。
考虑:
- 模型支持英语,但NVIDIA建议英语专用场景使用其专用英语模型。
- 80ms模式为最低延迟牺牲了一些准确率。
- 日语和韩语使用CER,跨语言错误比较需谨慎。
- 吞吐量数据在H100上测量,其他GPU结果会不同。
- 生产级NIM(含gRPC流式)已宣布但尚未发布。
关键要点
NVIDIA的Nemotron 3.5 ASR是一个开放权重(OpenMDW-1.1)、6亿参数的流式模型,单个检查点可转录40种语言区域。其缓存感知FastConformer-RNNT设计使每个音频帧仅处理一次,报道称在H100上并发流是缓冲方法的17倍。推理时可通过att_context_size配置延迟,范围80ms至1.12s,无需重新训练。简短微调后在FLEURS上使希腊语WER降低32%(35→24),保加利亚语降低31%(22→15)。该模型可自托管且流式原生,区别于封闭API或离线的Whisper。
更多信息请查看模型权重,也可关注我们的Twitter、加入150k+ ML SubReddit或订阅我们的Newsletter。