2026-05-26 15:56 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

OmniVoice Studio：本地开源替代ElevenLabs的语音AI工具

OmniVoice Studio是一款开源的桌面应用程序，可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类，无需API密钥、云账户或订阅。它支持646种语言的文本转语音（TTS），并通过MCP服务器集成到Claude、Cursor等AI工具中。

来源MarkTechPost作者: Michal Sutter

ElevenLabs的语音AI服务每月收费5至330美元，所有音频文件都需经过其云服务器处理。对于寻求开源替代方案的用户，OmniVoice Studio是一个不错的选择。这是一款开源桌面应用，能够本地运行语音克隆、视频配音、实时听写、声音分离和说话人分类等任务，无需将数据发送到外部服务器。

核心功能

语音克隆：仅需3秒的音频片段，通过零样本学习即可克隆声音。底层采用k2-fsa的OmniVoice模型，支持600多种语言。

声音设计：无需克隆现有声音，通过参数（性别、年龄、口音、音高、语速、情感、方言）创建新声音。

视频配音：输入YouTube链接或本地视频，利用WhisperX进行转录，翻译字幕，通过TTS引擎合成新音频，最后导出MP4文件。整个过程在本地完成。

听写工具：系统级浮动面板，在macOS上可通过快捷键⌘+⇧+Space从任何应用激活，通过WebSocket流式传输转录文本并自动粘贴到当前输入框。

批量处理：支持最多50个视频的队列处理，每个任务显示进度条。

MCP服务器：将OmniVoice Studio的功能暴露给任何MCP客户端，如Claude、Cursor等。

技术架构

项目采用React前端和FastAPI后端，后端提供97个API端点，使用服务器推送事件（SSE）实现流式更新，数据存储在SQLite中。核心机器学习库包括：

WhisperX：自动语音识别，支持99种语言。
Demucs（Meta）：源分离，将语音与背景音乐分开。
Pyannote：说话人分类，识别多说话人音频中的不同说话人。
AudioSeal（Meta）：为生成音频嵌入不可见的神经水印，用于AI溯源。

桌面应用使用Tauri框架构建，代码库中Python占56%，JavaScript占23.6%，CSS占11%，Shell占3.4%，Rust占3.3%，TypeScript占2.6%。GPU支持方面，后端自动检测CUDA、MPS和ROCm。当显存不超过8GB时，TTS会在转录期间自动卸载到CPU。

六种TTS引擎

OmniVoice Studio配备了可插拔的多引擎TTS后端。内置六种引擎：OmniVoice（默认，600+语言）、CosyVoice 3（9种语言及18种方言）、MLX-Audio（仅限Apple Silicon）、VoxCPM2（30种语言）、MOSS-TTS-Nano（20种语言，可在CPU上实时运行）、KittenTTS（仅英语，CPU）。用户可通过约50行Python代码添加自定义引擎。

语言覆盖

相比ElevenLabs的32种语言，OmniVoice Studio支持646种语言的TTS和99种语言的语音识别。翻译覆盖取决于目标语言对。

开始使用

前提条件：安装ffmpeg、Bun和uv。克隆仓库后运行以下命令：

uv sync
bun install
bun dev

前端自动在http://localhost:5173加载，API运行在8000端口。模型权重在首次生成时自动下载。也提供预构建的安装程序：macOS DMG、Windows MSI、Linux AppImage和.deb。

OmniVoice Studio采用FSL-1.1-ALv2许可，可用于个人、教育和研究用途。