2026-06-24 02:31 UTC+8站内改写1 分钟阅读更新: 2026-06-24 02:37 UTC+8

如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出（Python）

本教程使用NVIDIA Canary-1B-v2构建多语言ASR和语音翻译流水线，涵盖环境搭建、音频预处理、英语ASR、多语言翻译、时间戳提取、SRT字幕导出、长音频转录、批量处理及性能基准测试。

来源MarkTechPost作者: Sana Hassan

在本教程中，我们将使用NVIDIA Canary-1B-v2构建一个完整的语音识别与翻译工作流。首先，在GPU运行时中安装所需的系统包、NeMo ASR工具包、音频处理库以及兼容的NumPy和SciPy版本。随后，加载Canary模型至GPU设备以便高效推理。

我们通过librosa将音频转换为16 kHz单声道格式，然后对英文音频执行ASR（自动语音识别），并获得文本转录。接着，利用Canary的多语言翻译能力，将同一段英文语音翻译为法语、德语、西班牙语和意大利语。模型不仅输出翻译文本，还能生成词级和段级时间戳，我们可以借此精确对齐文本与音频。

为了生成字幕，我们将带时间戳的翻译结果转换为SRT格式。使用模型中提取的段级时间戳，以序号时间戳文本的格式生成标准字幕文件。教程还演示了如何对长音频（通过拼接样本生成）进行转录，以及如何使用批次大小为2的批量处理加速多个音频文件。最后，通过比较音频时长与计算耗时，计算实时因子（RTFx）来评估模型推理速度。

完成以上步骤后，我们就拥有一个完整的、可复用的多语言ASR与语音翻译流水线。它可以轻松适配真实音频文件、字幕生成和大规模转录实验。如需进一步扩展，可自定义上传音频、增加更多语言、调整批次大小或集成到生产级音频处理流程中。

完整代码和笔记本可在文中链接获取。欢迎关注我们的Twitter、加入150k+的ML SubReddit或订阅Newsletter。