Transcribe.cpp
Mozilla AI 宣佈發佈 transcribe.cpp,這是一個基於 ggml 的 C/C++ 語音轉文本(STT)推理庫,支持多種模型系列和 GPU 加速。由 CJ Pais 開發,旨在統一 STT 模型部署,是 Builders in Residence 計劃的首個項目。
我們將詳細説明 transcribe.cpp 的特性、背景和意義。transcribe.cpp 是一個基於 ggml 運行時的 C/C++ 語音轉文本(STT)推理庫,可以看作是“用於 STT 模型的 llama.cpp”。它通過 GGUF 格式支持多種 STT 模型系列,並利用 Metal、Vulkan 和 CUDA 後端實現快速的 GPU 推理。
該庫由 CJ Pais 開發,他此前通過 Mozilla Builders 項目與 Mozilla 團隊合作,貢獻了 LocalScore 基準測試工具,並集成了 whisper.cpp 的功能。他的工作最終演變為桌面應用 Handy,並於今年初被 WIRED 報道。
transcribe.cpp 的誕生源於一個觀察:許多優秀的 STT 模型各自為政,導致可移植性差(例如 MLX 模型僅限 Mac)和性能不佳(加速功能往往無法開箱即用)。transcribe.cpp 提供了統一的接口,輕鬆為所有這些模型引入 GPU 加速。最終成果是一個開源庫,不僅供 Handy 使用,也面向所有希望在應用中集成 STT 功能的開發者。
此外,transcribe.cpp 是首個獨立於 Mozilla AI 的 Builders in Residence (BiR) 計劃的開源項目。BiR 的目標是在開放環境中推動前沿應用研究,並將其與 Mozilla 的路線圖相結合。對於 transcribe.cpp,這意味着利用該庫構建 transcribefiles——可移植、跨平台、自包含的可執行文件,幾乎可在任何地方運行以執行音頻轉錄。
這對你意味着什麼?如果你希望為應用添加 STT 功能,GitHub 倉庫是你的下一站。你也可以使用 Handy 無需編寫代碼即可體驗轉錄,或者使用 llamafile 將你喜愛的模型和配置打包成自包含的可執行文件。這僅僅是個開始:我們期待看到人們利用 transcribe.cpp 創造新的工具!