OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具
OmniVoice Studio是一款開源的桌面應用程序,可在本地硬件上完成語音克隆、視頻配音、實時聽寫和説話人分類,無需API密鑰、雲賬户或訂閲。它支持646種語言的文本轉語音(TTS),並通過MCP服務器集成到Claude、Cursor等AI工具中。
文章情報
要點
- 完全本地運行,無需聯網或付費訂閲。
- 支持646種語言的TTS和99種語言的語音識別。
- 內置MCP服務器,可與Claude、Cursor等AI客户端集成。
- 提供6種TTS引擎,並支持自定義引擎,僅需約50行Python代碼。
為甚麼重要
這條新聞值得關注,因為完全本地運行,無需聯網或付費訂閲。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
ElevenLabs的語音AI服務每月收費5至330美元,所有音頻文件都需經過其雲服務器處理。對於尋求開源替代方案的用户,OmniVoice Studio是一個不錯的選擇。這是一款開源桌面應用,能夠本地運行語音克隆、視頻配音、實時聽寫、聲音分離和説話人分類等任務,無需將數據發送到外部服務器。
**核心功能**
語音克隆:僅需3秒的音頻片段,通過零樣本學習即可克隆聲音。底層採用k2-fsa的OmniVoice模型,支持600多種語言。
聲音設計:無需克隆現有聲音,通過參數(性別、年齡、口音、音高、語速、情感、方言)創建新聲音。
視頻配音:輸入YouTube鏈接或本地視頻,利用WhisperX進行轉錄,翻譯字幕,通過TTS引擎合成新音頻,最後導出MP4文件。整個過程在本地完成。
聽寫工具:系統級浮動面板,在macOS上可通過快捷鍵⌘+⇧+Space從任何應用激活,通過WebSocket流式傳輸轉錄文本並自動粘貼到當前輸入框。
批量處理:支持最多50個視頻的隊列處理,每個任務顯示進度條。
MCP服務器:將OmniVoice Studio的功能暴露給任何MCP客户端,如Claude、Cursor等。
**技術架構**
項目採用React前端和FastAPI後端,後端提供97個API端點,使用服務器推送事件(SSE)實現流式更新,數據存儲在SQLite中。核心機器學習庫包括:
- WhisperX:自動語音識別,支持99種語言。
- Demucs(Meta):源分離,將語音與背景音樂分開。
- Pyannote:説話人分類,識別多説話人音頻中的不同説話人。
- AudioSeal(Meta):為生成音頻嵌入不可見的神經水印,用於AI溯源。
桌面應用使用Tauri框架構建,代碼庫中Python佔56%,JavaScript佔23.6%,CSS佔11%,Shell佔3.4%,Rust佔3.3%,TypeScript佔2.6%。GPU支持方面,後端自動檢測CUDA、MPS和ROCm。當顯存不超過8GB時,TTS會在轉錄期間自動卸載到CPU。
**六種TTS引擎**
OmniVoice Studio配備了可插拔的多引擎TTS後端。內置六種引擎:OmniVoice(默認,600+語言)、CosyVoice 3(9種語言及18種方言)、MLX-Audio(僅限Apple Silicon)、VoxCPM2(30種語言)、MOSS-TTS-Nano(20種語言,可在CPU上實時運行)、KittenTTS(僅英語,CPU)。用户可通過約50行Python代碼添加自定義引擎。
**語言覆蓋**
相比ElevenLabs的32種語言,OmniVoice Studio支持646種語言的TTS和99種語言的語音識別。翻譯覆蓋取決於目標語言對。
**開始使用**
前提條件:安裝ffmpeg、Bun和uv。克隆倉庫後運行以下命令:
uv sync
bun install
bun dev前端自動在http://localhost:5173加載,API運行在8000端口。模型權重在首次生成時自動下載。也提供預構建的安裝程序:macOS DMG、Windows MSI、Linux AppImage和.deb。
OmniVoice Studio採用FSL-1.1-ALv2許可,可用於個人、教育和研究用途。