2026-05-26 15:56 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程式，可在本地硬體上完成語音克隆、影片配音、即時聽寫和說話人分類，無需API金鑰、雲賬戶或訂閱。它支援646種語言的文本轉語音（TTS），並透過MCP伺服器整合到Claude、Cursor等AI工具中。

來源MarkTechPost作者: Michal Sutter

ElevenLabs的語音AI服務每月收費5至330美元，所有音訊檔案都需經過其雲伺服器處理。對於尋求開源替代方案的使用者，OmniVoice Studio是一個不錯的選擇。這是一款開源桌面應用，能夠本地執行語音克隆、影片配音、即時聽寫、聲音分離和說話人分類等任務，無需將資料傳送到外部伺服器。

核心功能

語音克隆：僅需3秒的音訊片段，透過零樣本學習即可克隆聲音。底層採用k2-fsa的OmniVoice模型，支援600多種語言。

聲音設計：無需克隆現有聲音，透過引數（性別、年齡、口音、音高、語速、情感、方言）建立新聲音。

影片配音：輸入YouTube連結或本地影片，利用WhisperX進行轉錄，翻譯字幕，透過TTS引擎合成新音訊，最後匯出MP4檔案。整個過程在本地完成。

聽寫工具：系統級浮動面板，在macOS上可透過快捷鍵⌘+⇧+Space從任何應用啟用，透過WebSocket流式傳輸轉錄文本並自動貼上到當前輸入框。

批次處理：支援最多50個影片的佇列處理，每個任務顯示進度條。

MCP伺服器：將OmniVoice Studio的功能暴露給任何MCP客戶端，如Claude、Cursor等。

技術架構

專案採用React前端和FastAPI後端，後端提供97個API端點，使用伺服器推送事件（SSE）實現流式更新，資料儲存在SQLite中。核心機器學習庫包括：

WhisperX：自動語音識別，支援99種語言。
Demucs（Meta）：源分離，將語音與背景音樂分開。
Pyannote：說話人分類，識別多說話人音訊中的不同說話人。
AudioSeal（Meta）：為生成音訊嵌入不可見的神經水印，用於AI溯源。

桌面應用使用Tauri框架構建，程式碼庫中Python佔56%，JavaScript佔23.6%，CSS佔11%，Shell佔3.4%，Rust佔3.3%，TypeScript佔2.6%。GPU支援方面，後端自動檢測CUDA、MPS和ROCm。當視訊記憶體不超過8GB時，TTS會在轉錄期間自動解除安裝到CPU。

六種TTS引擎

OmniVoice Studio配備了可插拔的多引擎TTS後端。內建六種引擎：OmniVoice（預設，600+語言）、CosyVoice 3（9種語言及18種方言）、MLX-Audio（僅限Apple Silicon）、VoxCPM2（30種語言）、MOSS-TTS-Nano（20種語言，可在CPU上即時執行）、KittenTTS（僅英語，CPU）。使用者可透過約50行Python程式碼新增自定義引擎。

語言覆蓋

相比ElevenLabs的32種語言，OmniVoice Studio支援646種語言的TTS和99種語言的語音識別。翻譯覆蓋取決於目標語言對。

開始使用

前提條件：安裝ffmpeg、Bun和uv。克隆倉庫後執行以下命令：

uv sync
bun install
bun dev

前端自動在http://localhost:5173載入，API執行在8000埠。模型權重在首次生成時自動下載。也提供預構建的安裝程式：macOS DMG、Windows MSI、Linux AppImage和.deb。

OmniVoice Studio採用FSL-1.1-ALv2許可，可用於個人、教育和研究用途。