2026-05-26 15:56 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程序，可在本地硬件上完成語音克隆、視頻配音、實時聽寫和説話人分類，無需API密鑰、雲賬户或訂閲。它支持646種語言的文本轉語音（TTS），並通過MCP服務器集成到Claude、Cursor等AI工具中。

來源MarkTechPost作者: Michal Sutter

ElevenLabs的語音AI服務每月收費5至330美元，所有音頻文件都需經過其雲服務器處理。對於尋求開源替代方案的用户，OmniVoice Studio是一個不錯的選擇。這是一款開源桌面應用，能夠本地運行語音克隆、視頻配音、實時聽寫、聲音分離和説話人分類等任務，無需將數據發送到外部服務器。

核心功能

語音克隆：僅需3秒的音頻片段，通過零樣本學習即可克隆聲音。底層採用k2-fsa的OmniVoice模型，支持600多種語言。

聲音設計：無需克隆現有聲音，通過參數（性別、年齡、口音、音高、語速、情感、方言）創建新聲音。

視頻配音：輸入YouTube鏈接或本地視頻，利用WhisperX進行轉錄，翻譯字幕，通過TTS引擎合成新音頻，最後導出MP4文件。整個過程在本地完成。

聽寫工具：系統級浮動面板，在macOS上可通過快捷鍵⌘+⇧+Space從任何應用激活，通過WebSocket流式傳輸轉錄文本並自動粘貼到當前輸入框。

批量處理：支持最多50個視頻的隊列處理，每個任務顯示進度條。

MCP服務器：將OmniVoice Studio的功能暴露給任何MCP客户端，如Claude、Cursor等。

技術架構

項目採用React前端和FastAPI後端，後端提供97個API端點，使用服務器推送事件（SSE）實現流式更新，數據存儲在SQLite中。核心機器學習庫包括：

WhisperX：自動語音識別，支持99種語言。
Demucs（Meta）：源分離，將語音與背景音樂分開。
Pyannote：説話人分類，識別多説話人音頻中的不同説話人。
AudioSeal（Meta）：為生成音頻嵌入不可見的神經水印，用於AI溯源。

桌面應用使用Tauri框架構建，代碼庫中Python佔56%，JavaScript佔23.6%，CSS佔11%，Shell佔3.4%，Rust佔3.3%，TypeScript佔2.6%。GPU支持方面，後端自動檢測CUDA、MPS和ROCm。當顯存不超過8GB時，TTS會在轉錄期間自動卸載到CPU。

六種TTS引擎

OmniVoice Studio配備了可插拔的多引擎TTS後端。內置六種引擎：OmniVoice（默認，600+語言）、CosyVoice 3（9種語言及18種方言）、MLX-Audio（僅限Apple Silicon）、VoxCPM2（30種語言）、MOSS-TTS-Nano（20種語言，可在CPU上實時運行）、KittenTTS（僅英語，CPU）。用户可通過約50行Python代碼添加自定義引擎。

語言覆蓋

相比ElevenLabs的32種語言，OmniVoice Studio支持646種語言的TTS和99種語言的語音識別。翻譯覆蓋取決於目標語言對。

開始使用

前提條件：安裝ffmpeg、Bun和uv。克隆倉庫後運行以下命令：

uv sync
bun install
bun dev

前端自動在http://localhost:5173加載，API運行在8000端口。模型權重在首次生成時自動下載。也提供預構建的安裝程序：macOS DMG、Windows MSI、Linux AppImage和.deb。

OmniVoice Studio採用FSL-1.1-ALv2許可，可用於個人、教育和研究用途。