2026-06-28 20:11 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-28 20:21 UTC+8

在設備上對語音錄音進行降噪

duration.ai 公司將其開源的語音降噪模型移植到 iOS 和 Android 設備上，實現了接近付費雲服務的降噪效果，為設備端的零樣本語音克隆提供了高質量參考音頻。

近日，duration.ai 團隊發佈了一項技術成果：將一款開源的語音降噪模型成功移植到 iOS 和 Android 設備上，實現在手機端完成高質量的語音降噪。該團隊從一個較老的開源模型入手，經過壓縮和優化，使其在手機上的運行速度足以實時處理錄音，而降噪效果竟能與 ElevenLabs 等付費雲服務相媲美。

在測試中，該模型在去除背景音樂、重疊對話和風扇噪音方面表現出色。尤其是在音樂消除和説話人分離上，效果令人驚喜。團隊將原始模型縮小到一半以下，同時幾乎不損失質量，並專門為 Android 和 iOS 編寫了優化端口。在 M1 MacBook Pro 上，處理一段 10 秒的音頻只需約 0.4 秒；在手機上，Fairphone 4 需要 4 到 5 秒，Galaxy S25+ 只需 1 秒，而 2020 年的 iPhone 12 Pro 也僅需 1 秒，顯示出 iPhone 的硬件更適合此類計算。

這項工作的直接應用是 duration.ai 即將推出的旗艦應用，該應用將前沿的開源文本轉語音（TTS）模型帶到設備端，實現完全在手機上完成的零樣本語音克隆。用户僅需錄製 5 到 10 秒的語音，TTS 模型即可基於這段參考音頻生成用户聲音的語音。零樣本克隆對參考音頻質量非常敏感，因此需要高質量的降噪。

團隊對比了多種降噪方案，包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。結果顯示，他們的方案在語音清晰度上僅次於 ElevenLabs，但考慮到 ElevenLabs 運行在服務器端，而他們的方案完全離線且免費，這已經是巨大的優勢。SEMamba++ 在多説話人場景下表現不佳，且僅支持 16 kHz 採樣率，導致高頻信息丟失，聲音聽起來發悶。而團隊選擇的模型支持 48 kHz，能保留呼吸聲和齒音等讓語音聽起來真實的高頻細節。

該模型的主要不足是難以處理混響，混響會被保留在語音中。團隊指出，針對混響有專門的工具，而 SEMamba++ 和 ElevenLabs 在混響去除方面表現更好。

整體而言，duration.ai 通過將一款數年前的模型優化並移植到移動設備，實現了令人驚訝的降噪效果。儘管過程平淡——模型壓縮、速度優化（尤其在 Android 上挑戰巨大）——但最終成果顯著：一部手機即可隨時隨地對語音錄音進行降噪，且數據無需離開設備。