2026-06-04 20:59 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

如何针对您的语言、领域或口音微调 Nemotron 3.5 ASR

NVIDIA 发布了 Nemotron 3.5 ASR，这是一个 600M 参数的流式多语言语音转文本模型，支持 40 种语言区域，具有低延迟、高准确度，并内置标点和大小写处理。文章详细介绍了如何通过微调将该模型适应特定语言、领域或口音，并以希腊语和保加利亚语为例展示了显著的词错误率降低。

来源Hugging Face Blog

NVIDIA 近日发布了 Nemotron 3.5 ASR，这是其流行的 Nemotron 3 ASR 模型的继任者，后者仅支持英语。新模型是一个拥有 600M 参数的流式多语言语音转文本模型，能够从单个检查点实时转录 40 种语言区域，并内置标点和大写功能。该模型已在 Artificial Analysis 的独立基准测试中得到验证，在流式 ASR 模型中延迟排名第二——语音结束后仅需 0.07 秒即可生成最终转录文本——并且在 AA-WER 流式索引与最终转录时间排行榜中处于“最具吸引力象限”，在准确性与延迟的权衡中表现优异。

当前多语言语音识别面临几个主要问题：为了支持多种语言，开发者常需集成多个模型或 API，导致基础设施复杂；流式与准确度难以兼得，许多系统通过重复处理重叠音频窗口来模拟流式，消耗计算资源并增加延迟；后处理流程繁琐，需要额外模型添加标点和大小写；以及系统通常要求预先指定语言，无法处理语种切换。Nemotron 3.5 ASR 旨在用一个模型解决所有这些问题。

该模型的核心架构包括一个 Cache-Aware FastConformer 编码器（24 层）和一个 RNNT 解码器。编码器通过缓存之前的自注意力和卷积激活状态，避免重复计算，从而实现真正的低延迟流式处理。模型还支持语言条件化：用户可指定输入语言以获得最佳准确度，或设为自动模式让模型自行检测语言。

模型提供了一个关键参数 att_context_size，用于控制延迟与准确度的权衡。不同的上下文尺寸对应不同的应用场景，从超低延迟的语音助手到高准确度的离线转录，无需重新训练即可在推理时选择。

文章重点介绍了微调流程。由于训练数据中部分语言资源较少，针对这些语言的微调可以显著提升性能。以希腊语和保加利亚语为例，研究团队使用了约 2000 小时的公开多语言语料库进行微调，并在 FLEURS 测试集上评估。在最低延迟设置（80ms 块大小）下，希腊语的词错误率从 35% 降至 24%（相对改善 32%），保加利亚语从 22% 降至 15%（相对改善 31%）。进一步增加约 2000 小时的议会语音数据后，保加利亚语的词错误率降至接近 20%，证明更多数据持续带来改进。

微调流程分为五步：准备带语言标签的 tarred 数据、从基础检查点进行全模型微调、在保留数据集上评估、根据需要增加数据并重新训练、导出并部署微调后的检查点。微调后的模型与基础模型架构相同，可直接部署并选择相同的延迟-准确度操作点。