2026-06-28 20:11 UTC+8站内改写2 分钟阅读更新: 2026-06-28 20:21 UTC+8

在设备上对语音录音进行降噪

duration.ai 公司将其开源的语音降噪模型移植到 iOS 和 Android 设备上，实现了接近付费云服务的降噪效果，为设备端的零样本语音克隆提供了高质量参考音频。

近日，duration.ai 团队发布了一项技术成果：将一款开源的语音降噪模型成功移植到 iOS 和 Android 设备上，实现在手机端完成高质量的语音降噪。该团队从一个较老的开源模型入手，经过压缩和优化，使其在手机上的运行速度足以实时处理录音，而降噪效果竟能与 ElevenLabs 等付费云服务相媲美。

在测试中，该模型在去除背景音乐、重叠对话和风扇噪音方面表现出色。尤其是在音乐消除和说话人分离上，效果令人惊喜。团队将原始模型缩小到一半以下，同时几乎不损失质量，并专门为 Android 和 iOS 编写了优化端口。在 M1 MacBook Pro 上，处理一段 10 秒的音频只需约 0.4 秒；在手机上，Fairphone 4 需要 4 到 5 秒，Galaxy S25+ 只需 1 秒，而 2020 年的 iPhone 12 Pro 也仅需 1 秒，显示出 iPhone 的硬件更适合此类计算。

这项工作的直接应用是 duration.ai 即将推出的旗舰应用，该应用将前沿的开源文本转语音（TTS）模型带到设备端，实现完全在手机上完成的零样本语音克隆。用户仅需录制 5 到 10 秒的语音，TTS 模型即可基于这段参考音频生成用户声音的语音。零样本克隆对参考音频质量非常敏感，因此需要高质量的降噪。

团队对比了多种降噪方案，包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。结果显示，他们的方案在语音清晰度上仅次于 ElevenLabs，但考虑到 ElevenLabs 运行在服务器端，而他们的方案完全离线且免费，这已经是巨大的优势。SEMamba++ 在多说话人场景下表现不佳，且仅支持 16 kHz 采样率，导致高频信息丢失，声音听起来发闷。而团队选择的模型支持 48 kHz，能保留呼吸声和齿音等让语音听起来真实的高频细节。

该模型的主要不足是难以处理混响，混响会被保留在语音中。团队指出，针对混响有专门的工具，而 SEMamba++ 和 ElevenLabs 在混响去除方面表现更好。

整体而言，duration.ai 通过将一款数年前的模型优化并移植到移动设备，实现了令人惊讶的降噪效果。尽管过程平淡——模型压缩、速度优化（尤其在 Android 上挑战巨大）——但最终成果显著：一部手机即可随时随地对语音录音进行降噪，且数据无需离开设备。