2026-06-28 20:11 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-28 20:21 UTC+8

在裝置上對語音錄音進行降噪

duration.ai 公司將其開源的語音降噪模型移植到 iOS 和 Android 裝置上，實現了接近付費雲服務的降噪效果，為裝置端的零樣本語音克隆提供了高質量參考音訊。

近日，duration.ai 團隊釋出了一項技術成果：將一款開源的語音降噪模型成功移植到 iOS 和 Android 裝置上，實現在手機端完成高質量的語音降噪。該團隊從一個較老的開源模型入手，經過壓縮和最佳化，使其在手機上的執行速度足以即時處理錄音，而降噪效果竟能與 ElevenLabs 等付費雲服務相媲美。

在測試中，該模型在去除背景音樂、重疊對話和風扇噪音方面表現出色。尤其是在音樂消除和說話人分離上，效果令人驚喜。團隊將原始模型縮小到一半以下，同時幾乎不損失質量，並專門為 Android 和 iOS 編寫了最佳化埠。在 M1 MacBook Pro 上，處理一段 10 秒的音訊只需約 0.4 秒；在手機上，Fairphone 4 需要 4 到 5 秒，Galaxy S25+ 只需 1 秒，而 2020 年的 iPhone 12 Pro 也僅需 1 秒，顯示出 iPhone 的硬體更適合此類計算。

這項工作的直接應用是 duration.ai 即將推出的旗艦應用，該應用將前沿的開源文本轉語音（TTS）模型帶到裝置端，實現完全在手機上完成的零樣本語音克隆。使用者僅需錄製 5 到 10 秒的語音，TTS 模型即可基於這段參考音訊生成使用者聲音的語音。零樣本克隆對參考音訊質量非常敏感，因此需要高質量的降噪。

團隊對比了多種降噪方案，包括 DeepFilterNet3、ElevenLabs API、DPDFNet 以及最新的 SEMamba++。結果顯示，他們的方案在語音清晰度上僅次於 ElevenLabs，但考慮到 ElevenLabs 執行在伺服器端，而他們的方案完全離線且免費，這已經是巨大的優勢。SEMamba++ 在多說話人場景下表現不佳，且僅支援 16 kHz 取樣率，導致高頻資訊丟失，聲音聽起來發悶。而團隊選擇的模型支援 48 kHz，能保留呼吸聲和齒音等讓語音聽起來真實的高頻細節。

該模型的主要不足是難以處理混響，混響會被保留在語音中。團隊指出，針對混響有專門的工具，而 SEMamba++ 和 ElevenLabs 在混響去除方面表現更好。

整體而言，duration.ai 透過將一款數年前的模型最佳化並移植到移動裝置，實現了令人驚訝的降噪效果。儘管過程平淡——模型壓縮、速度最佳化（尤其在 Android 上挑戰巨大）——但最終成果顯著：一部手機即可隨時隨地對語音錄音進行降噪，且資料無需離開裝置。