在设备上对语音录音进行降噪
duration.ai 公司将其开源的语音降噪模型移植到 iOS 和 Android 设备上,实现了接近付费云服务的降噪效果,为设备端的零样本语音克隆提供了高质量参考音频。
近日,duration.ai 团队发布了一项技术成果:将一款开源的语音降噪模型成功移植到 iOS 和 Android 设备上,实现在手机端完成高质量的语音降噪。该团队从一个较老的开源模型入手,经过压缩和优化,使其在手机上的运行速度足以实时处理录音,而降噪效果竟能与 ElevenLabs 等付费云服务相媲美。
在测试中,该模型在去除背景音乐、重叠对话和风扇噪音方面表现出色。尤其是在音乐消除和说话人分离上,效果令人惊喜。团队将原始模型缩小到一半以下,同时几乎不损失质量,并专门为 Android 和 iOS 编写了优化端口。在 M1 MacBook Pro 上,处理一段 10 秒的音频只需约 0.4 秒;在手机上,Fairphone 4 需要 4 到 5 秒,Galaxy S25+ 只需 1 秒,而 2020 年的 iPhone 12 Pro 也仅需 1 秒,显示出 iPhone 的硬件更适合此类计算。
这项工作的直接应用是 duration.ai 即将推出的旗舰应用,该应用将前沿的开源文本转语音(TTS)模型带到设备端,实现完全在手机上完成的零样本语音克隆。用户仅需录制 5 到 10 秒的语音,TTS 模型即可基于这段参考音频生成用户声音的语音。零样本克隆对参考音频质量非常敏感,因此需要高质量的降噪。
团队对比了多种降噪方案,包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。结果显示,他们的方案在语音清晰度上仅次于 ElevenLabs,但考虑到 ElevenLabs 运行在服务器端,而他们的方案完全离线且免费,这已经是巨大的优势。SEMamba++ 在多说话人场景下表现不佳,且仅支持 16 kHz 采样率,导致高频信息丢失,声音听起来发闷。而团队选择的模型支持 48 kHz,能保留呼吸声和齿音等让语音听起来真实的高频细节。
该模型的主要不足是难以处理混响,混响会被保留在语音中。团队指出,针对混响有专门的工具,而 SEMamba++ 和 ElevenLabs 在混响去除方面表现更好。
整体而言,duration.ai 通过将一款数年前的模型优化并移植到移动设备,实现了令人惊讶的降噪效果。尽管过程平淡——模型压缩、速度优化(尤其在 Android 上挑战巨大)——但最终成果显著:一部手机即可随时随地对语音录音进行降噪,且数据无需离开设备。