Transcribe.cpp
Mozilla AI 宣布发布 transcribe.cpp,这是一个基于 ggml 的 C/C++ 语音转文本(STT)推理库,支持多种模型系列和 GPU 加速。由 CJ Pais 开发,旨在统一 STT 模型部署,是 Builders in Residence 计划的首个项目。
我们将详细说明 transcribe.cpp 的特性、背景和意义。transcribe.cpp 是一个基于 ggml 运行时的 C/C++ 语音转文本(STT)推理库,可以看作是“用于 STT 模型的 llama.cpp”。它通过 GGUF 格式支持多种 STT 模型系列,并利用 Metal、Vulkan 和 CUDA 后端实现快速的 GPU 推理。
该库由 CJ Pais 开发,他此前通过 Mozilla Builders 项目与 Mozilla 团队合作,贡献了 LocalScore 基准测试工具,并集成了 whisper.cpp 的功能。他的工作最终演变为桌面应用 Handy,并于今年初被 WIRED 报道。
transcribe.cpp 的诞生源于一个观察:许多优秀的 STT 模型各自为政,导致可移植性差(例如 MLX 模型仅限 Mac)和性能不佳(加速功能往往无法开箱即用)。transcribe.cpp 提供了统一的接口,轻松为所有这些模型引入 GPU 加速。最终成果是一个开源库,不仅供 Handy 使用,也面向所有希望在应用中集成 STT 功能的开发者。
此外,transcribe.cpp 是首个独立于 Mozilla AI 的 Builders in Residence (BiR) 计划的开源项目。BiR 的目标是在开放环境中推动前沿应用研究,并将其与 Mozilla 的路线图相结合。对于 transcribe.cpp,这意味着利用该库构建 transcribefiles——可移植、跨平台、自包含的可执行文件,几乎可在任何地方运行以执行音频转录。
这对你意味着什么?如果你希望为应用添加 STT 功能,GitHub 仓库是你的下一站。你也可以使用 Handy 无需编写代码即可体验转录,或者使用 llamafile 将你喜爱的模型和配置打包成自包含的可执行文件。这仅仅是个开始:我们期待看到人们利用 transcribe.cpp 创造新的工具!