AI News HubLIVE
站內改寫2 分鐘閱讀

在設備上對語音錄音進行降噪

duration.ai 公司將其開源的語音降噪模型移植到 iOS 和 Android 設備上,實現了接近付費雲服務的降噪效果,為設備端的零樣本語音克隆提供了高質量參考音頻。

來源Hacker News AI作者: sudb

近日,duration.ai 團隊發佈了一項技術成果:將一款開源的語音降噪模型成功移植到 iOS 和 Android 設備上,實現在手機端完成高質量的語音降噪。該團隊從一個較老的開源模型入手,經過壓縮和優化,使其在手機上的運行速度足以實時處理錄音,而降噪效果竟能與 ElevenLabs 等付費雲服務相媲美。

在測試中,該模型在去除背景音樂、重疊對話和風扇噪音方面表現出色。尤其是在音樂消除和説話人分離上,效果令人驚喜。團隊將原始模型縮小到一半以下,同時幾乎不損失質量,並專門為 Android 和 iOS 編寫了優化端口。在 M1 MacBook Pro 上,處理一段 10 秒的音頻只需約 0.4 秒;在手機上,Fairphone 4 需要 4 到 5 秒,Galaxy S25+ 只需 1 秒,而 2020 年的 iPhone 12 Pro 也僅需 1 秒,顯示出 iPhone 的硬件更適合此類計算。

這項工作的直接應用是 duration.ai 即將推出的旗艦應用,該應用將前沿的開源文本轉語音(TTS)模型帶到設備端,實現完全在手機上完成的零樣本語音克隆。用户僅需錄製 5 到 10 秒的語音,TTS 模型即可基於這段參考音頻生成用户聲音的語音。零樣本克隆對參考音頻質量非常敏感,因此需要高質量的降噪。

團隊對比了多種降噪方案,包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。結果顯示,他們的方案在語音清晰度上僅次於 ElevenLabs,但考慮到 ElevenLabs 運行在服務器端,而他們的方案完全離線且免費,這已經是巨大的優勢。SEMamba++ 在多説話人場景下表現不佳,且僅支持 16 kHz 採樣率,導致高頻信息丟失,聲音聽起來發悶。而團隊選擇的模型支持 48 kHz,能保留呼吸聲和齒音等讓語音聽起來真實的高頻細節。

該模型的主要不足是難以處理混響,混響會被保留在語音中。團隊指出,針對混響有專門的工具,而 SEMamba++ 和 ElevenLabs 在混響去除方面表現更好。

整體而言,duration.ai 通過將一款數年前的模型優化並移植到移動設備,實現了令人驚訝的降噪效果。儘管過程平淡——模型壓縮、速度優化(尤其在 Android 上挑戰巨大)——但最終成果顯著:一部手機即可隨時隨地對語音錄音進行降噪,且數據無需離開設備。