在裝置上對語音錄音進行降噪
duration.ai 公司將其開源的語音降噪模型移植到 iOS 和 Android 裝置上,實現了接近付費雲服務的降噪效果,為裝置端的零樣本語音克隆提供了高質量參考音訊。
近日,duration.ai 團隊釋出了一項技術成果:將一款開源的語音降噪模型成功移植到 iOS 和 Android 裝置上,實現在手機端完成高質量的語音降噪。該團隊從一個較老的開源模型入手,經過壓縮和最佳化,使其在手機上的執行速度足以即時處理錄音,而降噪效果竟能與 ElevenLabs 等付費雲服務相媲美。
在測試中,該模型在去除背景音樂、重疊對話和風扇噪音方面表現出色。尤其是在音樂消除和說話人分離上,效果令人驚喜。團隊將原始模型縮小到一半以下,同時幾乎不損失質量,並專門為 Android 和 iOS 編寫了最佳化埠。在 M1 MacBook Pro 上,處理一段 10 秒的音訊只需約 0.4 秒;在手機上,Fairphone 4 需要 4 到 5 秒,Galaxy S25+ 只需 1 秒,而 2020 年的 iPhone 12 Pro 也僅需 1 秒,顯示出 iPhone 的硬體更適合此類計算。
這項工作的直接應用是 duration.ai 即將推出的旗艦應用,該應用將前沿的開源文本轉語音(TTS)模型帶到裝置端,實現完全在手機上完成的零樣本語音克隆。使用者僅需錄製 5 到 10 秒的語音,TTS 模型即可基於這段參考音訊生成使用者聲音的語音。零樣本克隆對參考音訊質量非常敏感,因此需要高質量的降噪。
團隊對比了多種降噪方案,包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。結果顯示,他們的方案在語音清晰度上僅次於 ElevenLabs,但考慮到 ElevenLabs 執行在伺服器端,而他們的方案完全離線且免費,這已經是巨大的優勢。SEMamba++ 在多說話人場景下表現不佳,且僅支援 16 kHz 取樣率,導致高頻資訊丟失,聲音聽起來發悶。而團隊選擇的模型支援 48 kHz,能保留呼吸聲和齒音等讓語音聽起來真實的高頻細節。
該模型的主要不足是難以處理混響,混響會被保留在語音中。團隊指出,針對混響有專門的工具,而 SEMamba++ 和 ElevenLabs 在混響去除方面表現更好。
整體而言,duration.ai 透過將一款數年前的模型最佳化並移植到移動裝置,實現了令人驚訝的降噪效果。儘管過程平淡——模型壓縮、速度最佳化(尤其在 Android 上挑戰巨大)——但最終成果顯著:一部手機即可隨時隨地對語音錄音進行降噪,且資料無需離開裝置。