AI News HubLIVE
站内改写

OmniVoice Studio:本地开源替代ElevenLabs的语音AI工具

OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。

文章情报

工程师进阶

要点

  • 完全本地运行,无需联网或付费订阅。
  • 支持646种语言的TTS和99种语言的语音识别。
  • 内置MCP服务器,可与Claude、Cursor等AI客户端集成。
  • 提供6种TTS引擎,并支持自定义引擎,仅需约50行Python代码。

为什么重要

这条新闻值得关注,因为完全本地运行,无需联网或付费订阅。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

ElevenLabs的语音AI服务每月收费5至330美元,所有音频文件都需经过其云服务器处理。对于寻求开源替代方案的用户,OmniVoice Studio是一个不错的选择。这是一款开源桌面应用,能够本地运行语音克隆、视频配音、实时听写、声音分离和说话人分类等任务,无需将数据发送到外部服务器。

**核心功能**

语音克隆:仅需3秒的音频片段,通过零样本学习即可克隆声音。底层采用k2-fsa的OmniVoice模型,支持600多种语言。

声音设计:无需克隆现有声音,通过参数(性别、年龄、口音、音高、语速、情感、方言)创建新声音。

视频配音:输入YouTube链接或本地视频,利用WhisperX进行转录,翻译字幕,通过TTS引擎合成新音频,最后导出MP4文件。整个过程在本地完成。

听写工具:系统级浮动面板,在macOS上可通过快捷键⌘+⇧+Space从任何应用激活,通过WebSocket流式传输转录文本并自动粘贴到当前输入框。

批量处理:支持最多50个视频的队列处理,每个任务显示进度条。

MCP服务器:将OmniVoice Studio的功能暴露给任何MCP客户端,如Claude、Cursor等。

**技术架构**

项目采用React前端和FastAPI后端,后端提供97个API端点,使用服务器推送事件(SSE)实现流式更新,数据存储在SQLite中。核心机器学习库包括:

  • WhisperX:自动语音识别,支持99种语言。
  • Demucs(Meta):源分离,将语音与背景音乐分开。
  • Pyannote:说话人分类,识别多说话人音频中的不同说话人。
  • AudioSeal(Meta):为生成音频嵌入不可见的神经水印,用于AI溯源。

桌面应用使用Tauri框架构建,代码库中Python占56%,JavaScript占23.6%,CSS占11%,Shell占3.4%,Rust占3.3%,TypeScript占2.6%。GPU支持方面,后端自动检测CUDA、MPS和ROCm。当显存不超过8GB时,TTS会在转录期间自动卸载到CPU。

**六种TTS引擎**

OmniVoice Studio配备了可插拔的多引擎TTS后端。内置六种引擎:OmniVoice(默认,600+语言)、CosyVoice 3(9种语言及18种方言)、MLX-Audio(仅限Apple Silicon)、VoxCPM2(30种语言)、MOSS-TTS-Nano(20种语言,可在CPU上实时运行)、KittenTTS(仅英语,CPU)。用户可通过约50行Python代码添加自定义引擎。

**语言覆盖**

相比ElevenLabs的32种语言,OmniVoice Studio支持646种语言的TTS和99种语言的语音识别。翻译覆盖取决于目标语言对。

**开始使用**

前提条件:安装ffmpeg、Bun和uv。克隆仓库后运行以下命令:

uv sync
bun install
bun dev

前端自动在http://localhost:5173加载,API运行在8000端口。模型权重在首次生成时自动下载。也提供预构建的安装程序:macOS DMG、Windows MSI、Linux AppImage和.deb。

OmniVoice Studio采用FSL-1.1-ALv2许可,可用于个人、教育和研究用途。