2026-06-06 15:55 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA发布Nemotron 3.5 ASR：600M参数缓存感知流式模型，实时转录40种语言区域

NVIDIA发布了Nemotron 3.5 ASR，这是一个600M参数的流式自动语音识别模型，采用缓存感知的FastConformer-RNNT架构，支持40种语言区域的实时转录，且内置标点和大小写功能。模型以开放权重形式发布在Hugging Face上，许可协议为OpenMDW-1.1。

来源MarkTechPost作者: Asif Razzaq

NVIDIA的Nemotron语音团队发布了Nemotron 3.5 ASR，这是一个拥有6亿参数的流式自动语音识别（ASR）模型。单个检查点即可实时转录40种语言区域，并原生支持标点和大写。该模型以开放权重形式在Hugging Face上发布，采用OpenMDW-1.1许可协议。其架构为缓存感知的FastConformer-RNNT。

Nemotron 3.5 ASR是什么

Nemotron 3.5 ASR扩展了nvidia/nemotron-speech-streaming-en-0.6b模型，使其支持多种语言。它通过基于提示的语言ID条件化技术，使得一个6亿参数的检查点就能覆盖40种语言区域，无需为每种语言单独建模或切换模型。该模型面向两种工作负载：低延迟的实时音频流和高吞吐量的批量转录。输出结果包含正确的大小写和标点，无需额外的标点恢复步骤。

缓存感知的FastConformer-RNNT工作原理

模型主要由两部分组成：一个24层的缓存感知FastConformer编码器，以及一个RNNT解码器。FastConformer是Conformer架构的高效进化，采用线性可扩展的注意力机制。RNNT解码器在音频流进入时逐帧生成文本。

“缓存感知”设计是其效率关键。传统的缓冲流处理会在每一步重新处理重叠的音频窗口，导致重复计算和延迟。而该模型缓存了编码器的自注意力和卷积激活状态，当新音频到达时复用这些缓存状态。因此，每个音频帧仅处理一次，无重叠，计算和端到端延迟均降低，且不影响准确率。

延迟调节旋钮：att_context_size

一个推理参数控制延迟与准确率的权衡：注意力上下文大小att_context_size。较小的上下文更快生成文本，但看到的未来音频较少；较大的上下文在更高延迟下提升准确率。同一个检查点覆盖整个范围，设置对应80ms、160ms、320ms、560ms和1.12s的块大小。例如，[56,0]对应80ms超低延迟模式，[56,13]对应1.12s最高准确率模式。团队可在推理时选择操作点，无需重新训练。

语言检测与覆盖

40种语言区域包括英语、西班牙语、德语、法语变体，以及阿拉伯语、日语、韩语、普通话、印地语和泰语等。语言条件化有两种方式：将target_lang设置为已知区域通常获得最佳准确率；设置为auto则让模型自动检测语言。在自动模式下，模型会在句末标点后输出语言标签。这样一个部署即可转录混合语言流量，无需单独的语言ID组件。

对比

下表展示了Nemotron 3.5 ASR与市场同类产品的对比：

| 产品 | 公司 | 访问方式 | 原生流式 | 语言覆盖 | 报告延迟 | 定价模式 | |------|------|----------|----------|----------|----------|----------| | Nemotron 3.5 ASR | NVIDIA | 开放权重（OpenMDW-1.1），自托管；DeepInfra托管 | 是——缓存感知FastConformer-RNNT | 40种语言区域 | 80ms–1.12s，推理时可配置 | 自托管免费；使用量计费 | | Whisper large-v3 | OpenAI | 开放权重（MIT），自托管；API | 否——离线/批量 | ~99种语言 | 非流式 | 自托管免费；API约$0.006/分钟（批量） | | Nova-3 | Deepgram | 封闭API；本地/自托管（企业） | 是——流式+批量 | 多语言；2026年1月新增10种单语 | 低延迟流式（报道低于300ms） | 约$0.0077/分钟（Nova-3单语，按量） | | Universal-3 Pro Streaming | AssemblyAI | 封闭API（提供欧盟端点） | 是 | 6种语言：英语、西班牙语、法语、德语、意大利语、葡萄牙语 | 低于300ms（官方）；首次部分结果约750ms | 按量计费 | | Scribe v2 Realtime | ElevenLabs | 封闭API | 是 | 90+种语言 | 约150ms（p50） | 约$0.28/小时 | | Ursa / streaming | Speechmatics | API + 本地 + 边缘 | 是——流式+批量 | 50+种语言，自动识别 | 超低延迟（定位） | 企业/使用量 |

微调结果

由于权重开放，团队可针对特定语言、领域或口音进行微调。NVIDIA发布了希腊语和保加利亚语的微调示例。使用相同的缓存感知FastConformer-RNNT配方对基础检查点进行微调，每个片段带有target_lang标签。训练数据来自公共语料库，包括Granary、Common Voice和FLEURS。

结果以WER（词错误率）在保留的FLEURS数据集上测量，采用80ms设置。希腊语WER从35降至24，相对提升32%；保加利亚语从22降至15，相对提升31%。这些是在最低延迟流式模式下的原始WER百分比。NVIDIA指出，在部署延迟下对保留数据进行评估能提供真实数字。

优势与考虑

优势：

一个6亿参数检查点覆盖40种语言区域，减少部署复杂性。
缓存感知流式处理每个帧一次，报道称在H100上可实现17倍于缓冲方法的并发流。
att_context_size可在推理时将延迟从80ms调整到1.12s，无需重新训练。
内置标点、大写和自动语言标记。
开放权重使得微调后希腊语和保加利亚语WER相对降低31-32%。

考虑：

模型支持英语，但NVIDIA建议英语专用场景使用其专用英语模型。
80ms模式为最低延迟牺牲了一些准确率。
日语和韩语使用CER，跨语言错误比较需谨慎。
吞吐量数据在H100上测量，其他GPU结果会不同。
生产级NIM（含gRPC流式）已宣布但尚未发布。

关键要点

NVIDIA的Nemotron 3.5 ASR是一个开放权重（OpenMDW-1.1）、6亿参数的流式模型，单个检查点可转录40种语言区域。其缓存感知FastConformer-RNNT设计使每个音频帧仅处理一次，报道称在H100上并发流是缓冲方法的17倍。推理时可通过att_context_size配置延迟，范围80ms至1.12s，无需重新训练。简短微调后在FLEURS上使希腊语WER降低32%（35→24），保加利亚语降低31%（22→15）。该模型可自托管且流式原生，区别于封闭API或离线的Whisper。

更多信息请查看模型权重，也可关注我们的Twitter、加入150k+ ML SubReddit或订阅我们的Newsletter。