OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具
OmniVoice Studio是一款開源的桌面應用程式,可在本地硬體上完成語音克隆、影片配音、即時聽寫和說話人分類,無需API金鑰、雲賬戶或訂閱。它支援646種語言的文本轉語音(TTS),並透過MCP伺服器整合到Claude、Cursor等AI工具中。
文章情報
要點
- 完全本地執行,無需聯網或付費訂閱。
- 支援646種語言的TTS和99種語言的語音識別。
- 內建MCP伺服器,可與Claude、Cursor等AI客戶端整合。
- 提供6種TTS引擎,並支援自定義引擎,僅需約50行Python程式碼。
為什麼重要
這條新聞值得關注,因為完全本地執行,無需聯網或付費訂閱。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
ElevenLabs的語音AI服務每月收費5至330美元,所有音訊檔案都需經過其雲伺服器處理。對於尋求開源替代方案的使用者,OmniVoice Studio是一個不錯的選擇。這是一款開源桌面應用,能夠本地執行語音克隆、影片配音、即時聽寫、聲音分離和說話人分類等任務,無需將資料傳送到外部伺服器。
**核心功能**
語音克隆:僅需3秒的音訊片段,透過零樣本學習即可克隆聲音。底層採用k2-fsa的OmniVoice模型,支援600多種語言。
聲音設計:無需克隆現有聲音,透過引數(性別、年齡、口音、音高、語速、情感、方言)建立新聲音。
影片配音:輸入YouTube連結或本地影片,利用WhisperX進行轉錄,翻譯字幕,透過TTS引擎合成新音訊,最後匯出MP4檔案。整個過程在本地完成。
聽寫工具:系統級浮動面板,在macOS上可透過快捷鍵⌘+⇧+Space從任何應用啟用,透過WebSocket流式傳輸轉錄文本並自動貼上到當前輸入框。
批次處理:支援最多50個影片的佇列處理,每個任務顯示進度條。
MCP伺服器:將OmniVoice Studio的功能暴露給任何MCP客戶端,如Claude、Cursor等。
**技術架構**
專案採用React前端和FastAPI後端,後端提供97個API端點,使用伺服器推送事件(SSE)實現流式更新,資料儲存在SQLite中。核心機器學習庫包括:
- WhisperX:自動語音識別,支援99種語言。
- Demucs(Meta):源分離,將語音與背景音樂分開。
- Pyannote:說話人分類,識別多說話人音訊中的不同說話人。
- AudioSeal(Meta):為生成音訊嵌入不可見的神經水印,用於AI溯源。
桌面應用使用Tauri框架構建,程式碼庫中Python佔56%,JavaScript佔23.6%,CSS佔11%,Shell佔3.4%,Rust佔3.3%,TypeScript佔2.6%。GPU支援方面,後端自動檢測CUDA、MPS和ROCm。當視訊記憶體不超過8GB時,TTS會在轉錄期間自動解除安裝到CPU。
**六種TTS引擎**
OmniVoice Studio配備了可插拔的多引擎TTS後端。內建六種引擎:OmniVoice(預設,600+語言)、CosyVoice 3(9種語言及18種方言)、MLX-Audio(僅限Apple Silicon)、VoxCPM2(30種語言)、MOSS-TTS-Nano(20種語言,可在CPU上即時執行)、KittenTTS(僅英語,CPU)。使用者可透過約50行Python程式碼新增自定義引擎。
**語言覆蓋**
相比ElevenLabs的32種語言,OmniVoice Studio支援646種語言的TTS和99種語言的語音識別。翻譯覆蓋取決於目標語言對。
**開始使用**
前提條件:安裝ffmpeg、Bun和uv。克隆倉庫後執行以下命令:
uv sync
bun install
bun dev前端自動在http://localhost:5173載入,API執行在8000埠。模型權重在首次生成時自動下載。也提供預構建的安裝程式:macOS DMG、Windows MSI、Linux AppImage和.deb。
OmniVoice Studio採用FSL-1.1-ALv2許可,可用於個人、教育和研究用途。