OmniVoice Studio:ElevenLabsに代わるローカル・オープンソースの音声AIツール
OmniVoice Studioは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、話者分離をすべてローカルハードウェアで実行するオープンソースのデスクトップアプリケーションです。APIキー、クラウドアカウント、サブスクリプションは不要で、646言語のTTSに対応し、ClaudeやCursorなどのAIツールと連携するMCPサーバーを備えています。
記事インテリジェンス
要点
- 完全ローカル動作、クラウド不要、サブスクリプション不要。
- TTSで646言語、文字起こしで99言語に対応。
- MCPサーバー内蔵によりClaudeやCursor等のAIクライアントと統合可能。
- 6つのTTSエンジン搭載、カスタムエンジンも約50行のPythonコードで追加可能。
重要な理由
このニュースが重要なのは、完全ローカル動作、クラウド不要、サブスクリプション不要ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
ElevenLabsの音声AIサービスは月額5〜330ドルで、すべての音声ファイルはクラウドサーバーを経由します。オープンソースの代替を求めるユーザーにとって、OmniVoice Studioは適切な選択肢です。このオープンソースのデスクトップアプリケーションは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、音声分離、話者分離といったタスクをすべてローカルで実行し、データを外部サーバーに送信する必要がありません。
**主な機能**
音声クローン:わずか3秒の音声クリップからゼロショット学習で声をクローンします。基盤モデルはk2-fsaのOmniVoiceで、600以上の言語をサポートします。
音声デザイン:既存の声をクローンせずに、性別、年齢、アクセント、ピッチ、スピード、感情、方言のパラメータから新しい声を生成します。
ビデオ吹き替え:YouTubeのURLまたはローカル動画ファイルを入力し、WhisperXで文字起こし、翻訳、TTSエンジンで音声合成を行い、MP4を出力します。全工程がローカルで動作します。
ディクテーション:システム全体で動作するフローティングウィジェットです。macOSでは⌘+⇧+Spaceで任意のアプリから起動し、WebSocket経由で文字起こしをストリーミングし、アクティブな入力フィールドに自動貼り付けします。
バッチキュー:最大50本の動画をキューに追加し、各ジョブの進捗バーがパイプライン全体を追跡します。
MCPサーバー:OmniVoice Studioの機能を任意のMCPクライアント(Claude、Cursorなど)に公開します。
**技術アーキテクチャ**
ReactフロントエンドとFastAPIバックエンドで構成され、バックエンドは97のAPIエンドポイントを提供し、サーバー送信イベント(SSE)でストリーミング更新を行い、SQLiteにデータを保存します。主要なMLライブラリは以下の通り:
- WhisperX:自動音声認識、99言語対応。
- Demucs(Meta):音源分離、音声と背景音楽を独立して保持。
- Pyannote:話者分離、複数話者の音声から誰が発言したかを識別。
- AudioSeal(Meta):生成音声に不可視のニューラル透かしを埋め込み、圧縮後もAIの出所情報として機能。
デスクトップラッパーはTauri(Rustベース)で構築され、コードベースはPython 56%、JavaScript 23.6%、CSS 11%、Shell 3.4%、Rust 3.3%、TypeScript 2.6%です。GPUサポートはCUDA、MPS、ROCmを自動検出し、VRAM 8GB以下の場合、TTSは文字起こし中に自動的にCPUへオフロードされます。
**6つのTTSエンジン**
OmniVoice Studioはプラグイン可能なマルチエンジンTTSバックエンドを搭載しています。標準搭載の6つのエンジン:OmniVoice(デフォルト、600+言語)、CosyVoice 3(9言語+18方言)、MLX-Audio(Apple Siliconのみ)、VoxCPM2(30言語)、MOSS-TTS-Nano(20言語、CPUでリアルタイム動作)、KittenTTS(英語のみ、CPU)。カスタムエンジンは約50行のPythonコードで追加可能です。
**言語カバレッジ**
ElevenLabsが32言語に対応するのに対し、OmniVoice StudioはTTSで646言語、WhisperXによる文字起こしで99言語をサポートします。翻訳のカバレッジは対象言語ペアに依存します。
**始め方**
前提条件:ffmpeg、Bun、uvをインストール後、リポジトリをクローンして以下のコマンドを実行:
uv sync
bun install
bun devフロントエンドはhttp://localhost:5173、APIはポート8000で起動します。モデル重みは初回生成時に自動ダウンロードされます。プリビルドインストーラ(macOS DMG、Windows MSI、Linux AppImage/.deb)も提供されています。
OmniVoice StudioはFSL-1.1-ALv2ライセンスで、個人、教育、研究目的で無料利用可能です。