AI News HubLIVE
站内改写

OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程序,可在本地硬件上完成語音克隆、視頻配音、實時聽寫和説話人分類,無需API密鑰、雲賬户或訂閲。它支持646種語言的文本轉語音(TTS),並通過MCP服務器集成到Claude、Cursor等AI工具中。

文章情報

工程師進階

要點

  • 完全本地運行,無需聯網或付費訂閲。
  • 支持646種語言的TTS和99種語言的語音識別。
  • 內置MCP服務器,可與Claude、Cursor等AI客户端集成。
  • 提供6種TTS引擎,並支持自定義引擎,僅需約50行Python代碼。

為甚麼重要

這條新聞值得關注,因為完全本地運行,無需聯網或付費訂閲。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

ElevenLabs的語音AI服務每月收費5至330美元,所有音頻文件都需經過其雲服務器處理。對於尋求開源替代方案的用户,OmniVoice Studio是一個不錯的選擇。這是一款開源桌面應用,能夠本地運行語音克隆、視頻配音、實時聽寫、聲音分離和説話人分類等任務,無需將數據發送到外部服務器。

**核心功能**

語音克隆:僅需3秒的音頻片段,通過零樣本學習即可克隆聲音。底層採用k2-fsa的OmniVoice模型,支持600多種語言。

聲音設計:無需克隆現有聲音,通過參數(性別、年齡、口音、音高、語速、情感、方言)創建新聲音。

視頻配音:輸入YouTube鏈接或本地視頻,利用WhisperX進行轉錄,翻譯字幕,通過TTS引擎合成新音頻,最後導出MP4文件。整個過程在本地完成。

聽寫工具:系統級浮動面板,在macOS上可通過快捷鍵⌘+⇧+Space從任何應用激活,通過WebSocket流式傳輸轉錄文本並自動粘貼到當前輸入框。

批量處理:支持最多50個視頻的隊列處理,每個任務顯示進度條。

MCP服務器:將OmniVoice Studio的功能暴露給任何MCP客户端,如Claude、Cursor等。

**技術架構**

項目採用React前端和FastAPI後端,後端提供97個API端點,使用服務器推送事件(SSE)實現流式更新,數據存儲在SQLite中。核心機器學習庫包括:

  • WhisperX:自動語音識別,支持99種語言。
  • Demucs(Meta):源分離,將語音與背景音樂分開。
  • Pyannote:説話人分類,識別多説話人音頻中的不同説話人。
  • AudioSeal(Meta):為生成音頻嵌入不可見的神經水印,用於AI溯源。

桌面應用使用Tauri框架構建,代碼庫中Python佔56%,JavaScript佔23.6%,CSS佔11%,Shell佔3.4%,Rust佔3.3%,TypeScript佔2.6%。GPU支持方面,後端自動檢測CUDA、MPS和ROCm。當顯存不超過8GB時,TTS會在轉錄期間自動卸載到CPU。

**六種TTS引擎**

OmniVoice Studio配備了可插拔的多引擎TTS後端。內置六種引擎:OmniVoice(默認,600+語言)、CosyVoice 3(9種語言及18種方言)、MLX-Audio(僅限Apple Silicon)、VoxCPM2(30種語言)、MOSS-TTS-Nano(20種語言,可在CPU上實時運行)、KittenTTS(僅英語,CPU)。用户可通過約50行Python代碼添加自定義引擎。

**語言覆蓋**

相比ElevenLabs的32種語言,OmniVoice Studio支持646種語言的TTS和99種語言的語音識別。翻譯覆蓋取決於目標語言對。

**開始使用**

前提條件:安裝ffmpeg、Bun和uv。克隆倉庫後運行以下命令:

uv sync
bun install
bun dev

前端自動在http://localhost:5173加載,API運行在8000端口。模型權重在首次生成時自動下載。也提供預構建的安裝程序:macOS DMG、Windows MSI、Linux AppImage和.deb。

OmniVoice Studio採用FSL-1.1-ALv2許可,可用於個人、教育和研究用途。