Transcribe.cpp
Mozilla AI は、ggml 上に構築された C/C++ 音声認識(STT)推論ライブラリ transcribe.cpp を発表しました。複数のモデルファミリーをサポートし、GPU アクセラレーションを提供します。CJ Pais によって開発され、STT モデルの展開を統一することを目的としており、Builders in Residence プログラム最初のプロジェクトです。
transcribe.cpp は、C/C++ で書かれた音声認識(STT)推論ライブラリです。「llama.cpp の STT 版」として、ggml ランタイムを基盤に、GGUF 形式の多様な STT モデルファミリーをサポートします。Metal、Vulkan、CUDA バックエンドにより高速な GPU 推論が可能です。
開発者の CJ Pais は、Mozilla Builders プログラムを通じて Mozilla と協業し、LocalScore ベンチマークツールの作成や whisper.cpp 機能の統合(whisperfile)など、llamafile プロジェクトに貢献してきました。彼の STT に関する研究は、自身のデスクトップアプリケーション Handy へと発展し、今年初めに WIRED で紹介されました。
transcribe.cpp の開発は、多くの優れた STT モデルが個別に開発され、移植性の低さ(例:MLX モデルは Mac のみ)や性能の最適化不足(アクセラレーションがすぐに使えない)といった問題を抱えているという観察から始まりました。transcribe.cpp は統一インターフェースを提供し、これらすべてのモデルに GPU アクセラレーションを簡単に導入できます。結果として、Handy だけでなく、アプリケーションに STT 機能を組み込みたいすべての開発者が利用できるオープンソースライブラリとなりました。
さらに、transcribe.cpp は Mozilla AI の Builders in Residence(BiR)プログラムの支援を受けた最初の独立オープンソースプロジェクトです。BiR は、最先端の応用研究をオープンに推進し、Mozilla のロードマップと結びつけることを目的としています。transcribe.cpp の場合、このライブラリを使用して transcribefiles(ポータブルでマルチプラットフォーム、自己完結型の実行ファイル)を構築し、ほぼどこでも音声文字起こしを実行できるようにします。
これはあなたにとって何を意味するのでしょうか?アプリケーションに STT 機能を追加したい開発者には、GitHub リポジトリが最適です。コードを書かずに文字起こしを試したい場合は Handy を使用するか、llamafile を使ってお気に入りのモデルと設定を自己完結型の実行ファイルにバンドルすることもできます。これは始まりに過ぎません。transcribe.cpp から新しいツールが生まれることを楽しみにしています!