2026-05-26 16:56 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

OmniVoice Studio：ElevenLabsに代わるローカル・オープンソースの音声AIツール

OmniVoice Studioは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、話者分離をすべてローカルハードウェアで実行するオープンソースのデスクトップアプリケーションです。APIキー、クラウドアカウント、サブスクリプションは不要で、646言語のTTSに対応し、ClaudeやCursorなどのAIツールと連携するMCPサーバーを備えています。

ソースMarkTechPost著者: Michal Sutter

ElevenLabsの音声AIサービスは月額5〜330ドルで、すべての音声ファイルはクラウドサーバーを経由します。オープンソースの代替を求めるユーザーにとって、OmniVoice Studioは適切な選択肢です。このオープンソースのデスクトップアプリケーションは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、音声分離、話者分離といったタスクをすべてローカルで実行し、データを外部サーバーに送信する必要がありません。

主な機能

音声クローン：わずか3秒の音声クリップからゼロショット学習で声をクローンします。基盤モデルはk2-fsaのOmniVoiceで、600以上の言語をサポートします。

音声デザイン：既存の声をクローンせずに、性別、年齢、アクセント、ピッチ、スピード、感情、方言のパラメータから新しい声を生成します。

ビデオ吹き替え：YouTubeのURLまたはローカル動画ファイルを入力し、WhisperXで文字起こし、翻訳、TTSエンジンで音声合成を行い、MP4を出力します。全工程がローカルで動作します。

ディクテーション：システム全体で動作するフローティングウィジェットです。macOSでは⌘+⇧+Spaceで任意のアプリから起動し、WebSocket経由で文字起こしをストリーミングし、アクティブな入力フィールドに自動貼り付けします。

バッチキュー：最大50本の動画をキューに追加し、各ジョブの進捗バーがパイプライン全体を追跡します。

MCPサーバー：OmniVoice Studioの機能を任意のMCPクライアント（Claude、Cursorなど）に公開します。

技術アーキテクチャ

ReactフロントエンドとFastAPIバックエンドで構成され、バックエンドは97のAPIエンドポイントを提供し、サーバー送信イベント（SSE）でストリーミング更新を行い、SQLiteにデータを保存します。主要なMLライブラリは以下の通り：

WhisperX：自動音声認識、99言語対応。
Demucs（Meta）：音源分離、音声と背景音楽を独立して保持。
Pyannote：話者分離、複数話者の音声から誰が発言したかを識別。
AudioSeal（Meta）：生成音声に不可視のニューラル透かしを埋め込み、圧縮後もAIの出所情報として機能。

デスクトップラッパーはTauri（Rustベース）で構築され、コードベースはPython 56%、JavaScript 23.6%、CSS 11%、Shell 3.4%、Rust 3.3%、TypeScript 2.6%です。GPUサポートはCUDA、MPS、ROCmを自動検出し、VRAM 8GB以下の場合、TTSは文字起こし中に自動的にCPUへオフロードされます。

6つのTTSエンジン

OmniVoice Studioはプラグイン可能なマルチエンジンTTSバックエンドを搭載しています。標準搭載の6つのエンジン：OmniVoice（デフォルト、600+言語）、CosyVoice 3（9言語＋18方言）、MLX-Audio（Apple Siliconのみ）、VoxCPM2（30言語）、MOSS-TTS-Nano（20言語、CPUでリアルタイム動作）、KittenTTS（英語のみ、CPU）。カスタムエンジンは約50行のPythonコードで追加可能です。

言語カバレッジ

ElevenLabsが32言語に対応するのに対し、OmniVoice StudioはTTSで646言語、WhisperXによる文字起こしで99言語をサポートします。翻訳のカバレッジは対象言語ペアに依存します。

始め方

前提条件：ffmpeg、Bun、uvをインストール後、リポジトリをクローンして以下のコマンドを実行：

uv sync
bun install
bun dev

フロントエンドはhttp://localhost:5173、APIはポート8000で起動します。モデル重みは初回生成時に自動ダウンロードされます。プリビルドインストーラ（macOS DMG、Windows MSI、Linux AppImage/.deb）も提供されています。

OmniVoice StudioはFSL-1.1-ALv2ライセンスで、個人、教育、研究目的で無料利用可能です。