AI News HubLIVE
站内改写

OmniVoice Studio:ElevenLabsに代わるローカル・オープンソースの音声AIツール

OmniVoice Studioは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、話者分離をすべてローカルハードウェアで実行するオープンソースのデスクトップアプリケーションです。APIキー、クラウドアカウント、サブスクリプションは不要で、646言語のTTSに対応し、ClaudeやCursorなどのAIツールと連携するMCPサーバーを備えています。

記事インテリジェンス

エンジニア上級

要点

  • 完全ローカル動作、クラウド不要、サブスクリプション不要。
  • TTSで646言語、文字起こしで99言語に対応。
  • MCPサーバー内蔵によりClaudeやCursor等のAIクライアントと統合可能。
  • 6つのTTSエンジン搭載、カスタムエンジンも約50行のPythonコードで追加可能。

重要な理由

このニュースが重要なのは、完全ローカル動作、クラウド不要、サブスクリプション不要ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

ElevenLabsの音声AIサービスは月額5〜330ドルで、すべての音声ファイルはクラウドサーバーを経由します。オープンソースの代替を求めるユーザーにとって、OmniVoice Studioは適切な選択肢です。このオープンソースのデスクトップアプリケーションは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、音声分離、話者分離といったタスクをすべてローカルで実行し、データを外部サーバーに送信する必要がありません。

**主な機能**

音声クローン:わずか3秒の音声クリップからゼロショット学習で声をクローンします。基盤モデルはk2-fsaのOmniVoiceで、600以上の言語をサポートします。

音声デザイン:既存の声をクローンせずに、性別、年齢、アクセント、ピッチ、スピード、感情、方言のパラメータから新しい声を生成します。

ビデオ吹き替え:YouTubeのURLまたはローカル動画ファイルを入力し、WhisperXで文字起こし、翻訳、TTSエンジンで音声合成を行い、MP4を出力します。全工程がローカルで動作します。

ディクテーション:システム全体で動作するフローティングウィジェットです。macOSでは⌘+⇧+Spaceで任意のアプリから起動し、WebSocket経由で文字起こしをストリーミングし、アクティブな入力フィールドに自動貼り付けします。

バッチキュー:最大50本の動画をキューに追加し、各ジョブの進捗バーがパイプライン全体を追跡します。

MCPサーバー:OmniVoice Studioの機能を任意のMCPクライアント(Claude、Cursorなど)に公開します。

**技術アーキテクチャ**

ReactフロントエンドとFastAPIバックエンドで構成され、バックエンドは97のAPIエンドポイントを提供し、サーバー送信イベント(SSE)でストリーミング更新を行い、SQLiteにデータを保存します。主要なMLライブラリは以下の通り:

  • WhisperX:自動音声認識、99言語対応。
  • Demucs(Meta):音源分離、音声と背景音楽を独立して保持。
  • Pyannote:話者分離、複数話者の音声から誰が発言したかを識別。
  • AudioSeal(Meta):生成音声に不可視のニューラル透かしを埋め込み、圧縮後もAIの出所情報として機能。

デスクトップラッパーはTauri(Rustベース)で構築され、コードベースはPython 56%、JavaScript 23.6%、CSS 11%、Shell 3.4%、Rust 3.3%、TypeScript 2.6%です。GPUサポートはCUDA、MPS、ROCmを自動検出し、VRAM 8GB以下の場合、TTSは文字起こし中に自動的にCPUへオフロードされます。

**6つのTTSエンジン**

OmniVoice Studioはプラグイン可能なマルチエンジンTTSバックエンドを搭載しています。標準搭載の6つのエンジン:OmniVoice(デフォルト、600+言語)、CosyVoice 3(9言語+18方言)、MLX-Audio(Apple Siliconのみ)、VoxCPM2(30言語)、MOSS-TTS-Nano(20言語、CPUでリアルタイム動作)、KittenTTS(英語のみ、CPU)。カスタムエンジンは約50行のPythonコードで追加可能です。

**言語カバレッジ**

ElevenLabsが32言語に対応するのに対し、OmniVoice StudioはTTSで646言語、WhisperXによる文字起こしで99言語をサポートします。翻訳のカバレッジは対象言語ペアに依存します。

**始め方**

前提条件:ffmpeg、Bun、uvをインストール後、リポジトリをクローンして以下のコマンドを実行:

uv sync
bun install
bun dev

フロントエンドはhttp://localhost:5173、APIはポート8000で起動します。モデル重みは初回生成時に自動ダウンロードされます。プリビルドインストーラ(macOS DMG、Windows MSI、Linux AppImage/.deb)も提供されています。

OmniVoice StudioはFSL-1.1-ALv2ライセンスで、個人、教育、研究目的で無料利用可能です。