如何针对您的语言、领域或口音微调 Nemotron 3.5 ASR
NVIDIA 发布了 Nemotron 3.5 ASR,这是一个 600M 参数的流式多语言语音转文本模型,支持 40 种语言区域,具有低延迟、高准确度,并内置标点和大小写处理。文章详细介绍了如何通过微调将该模型适应特定语言、领域或口音,并以希腊语和保加利亚语为例展示了显著的词错误率降低。
NVIDIA 近日发布了 Nemotron 3.5 ASR,这是其流行的 Nemotron 3 ASR 模型的继任者,后者仅支持英语。新模型是一个拥有 600M 参数的流式多语言语音转文本模型,能够从单个检查点实时转录 40 种语言区域,并内置标点和大写功能。该模型已在 Artificial Analysis 的独立基准测试中得到验证,在流式 ASR 模型中延迟排名第二——语音结束后仅需 0.07 秒即可生成最终转录文本——并且在 AA-WER 流式索引与最终转录时间排行榜中处于“最具吸引力象限”,在准确性与延迟的权衡中表现优异。
当前多语言语音识别面临几个主要问题:为了支持多种语言,开发者常需集成多个模型或 API,导致基础设施复杂;流式与准确度难以兼得,许多系统通过重复处理重叠音频窗口来模拟流式,消耗计算资源并增加延迟;后处理流程繁琐,需要额外模型添加标点和大小写;以及系统通常要求预先指定语言,无法处理语种切换。Nemotron 3.5 ASR 旨在用一个模型解决所有这些问题。
该模型的核心架构包括一个 Cache-Aware FastConformer 编码器(24 层)和一个 RNNT 解码器。编码器通过缓存之前的自注意力和卷积激活状态,避免重复计算,从而实现真正的低延迟流式处理。模型还支持语言条件化:用户可指定输入语言以获得最佳准确度,或设为自动模式让模型自行检测语言。
模型提供了一个关键参数 att_context_size,用于控制延迟与准确度的权衡。不同的上下文尺寸对应不同的应用场景,从超低延迟的语音助手到高准确度的离线转录,无需重新训练即可在推理时选择。
文章重点介绍了微调流程。由于训练数据中部分语言资源较少,针对这些语言的微调可以显著提升性能。以希腊语和保加利亚语为例,研究团队使用了约 2000 小时的公开多语言语料库进行微调,并在 FLEURS 测试集上评估。在最低延迟设置(80ms 块大小)下,希腊语的词错误率从 35% 降至 24%(相对改善 32%),保加利亚语从 22% 降至 15%(相对改善 31%)。进一步增加约 2000 小时的议会语音数据后,保加利亚语的词错误率降至接近 20%,证明更多数据持续带来改进。
微调流程分为五步:准备带语言标签的 tarred 数据、从基础检查点进行全模型微调、在保留数据集上评估、根据需要增加数据并重新训练、导出并部署微调后的检查点。微调后的模型与基础模型架构相同,可直接部署并选择相同的延迟-准确度操作点。