AI News HubLIVE
站内改写1 分钟阅读

如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出(Python)

本教程使用NVIDIA Canary-1B-v2构建多语言ASR和语音翻译流水线,涵盖环境搭建、音频预处理、英语ASR、多语言翻译、时间戳提取、SRT字幕导出、长音频转录、批量处理及性能基准测试。

来源MarkTechPost作者: Sana Hassan

在本教程中,我们将使用NVIDIA Canary-1B-v2构建一个完整的语音识别与翻译工作流。首先,在GPU运行时中安装所需的系统包、NeMo ASR工具包、音频处理库以及兼容的NumPy和SciPy版本。随后,加载Canary模型至GPU设备以便高效推理。

我们通过librosa将音频转换为16 kHz单声道格式,然后对英文音频执行ASR(自动语音识别),并获得文本转录。接着,利用Canary的多语言翻译能力,将同一段英文语音翻译为法语、德语、西班牙语和意大利语。模型不仅输出翻译文本,还能生成词级和段级时间戳,我们可以借此精确对齐文本与音频。

为了生成字幕,我们将带时间戳的翻译结果转换为SRT格式。使用模型中提取的段级时间戳,以序号 时间戳 文本的格式生成标准字幕文件。教程还演示了如何对长音频(通过拼接样本生成)进行转录,以及如何使用批次大小为2的批量处理加速多个音频文件。最后,通过比较音频时长与计算耗时,计算实时因子(RTFx)来评估模型推理速度。

完成以上步骤后,我们就拥有一个完整的、可复用的多语言ASR与语音翻译流水线。它可以轻松适配真实音频文件、字幕生成和大规模转录实验。如需进一步扩展,可自定义上传音频、增加更多语言、调整批次大小或集成到生产级音频处理流程中。

完整代码和笔记本可在文中链接获取。欢迎关注我们的Twitter、加入150k+的ML SubReddit或订阅Newsletter。