AI News HubLIVE
サイト内リライト2 分で読了

デバイス上でのボイス録音のノイズ除去

duration.aiがオープンウエイトのノイズ除去モデルをiOSとAndroidに移植し、有料クラウドサービスに迫る性能を実現。ゼロショット音声クローンのためのクリーンな参照音声を提供する。

ソースHacker News AI著者: sudb

duration.aiは、オープンウエイトの音声ノイズ除去モデルをiOSおよびAndroidデバイスに移植し、高品質なノイズ除去をスマートフォン上で実現しました。このモデルは、数年前のオープンソースモデルをベースに、サイズを半分以下に圧縮し、モバイル向けに最適化されています。テストでは、背景音楽、重なり合う会話、ファンの騒音などを効果的に除去し、その性能はElevenLabsなどの有料クラウドサービスに迫るものでした。

M1 MacBook Proでは10秒のクリップを約0.4秒で処理。スマートフォンでは、Fairphone 4で4~5秒、Galaxy S25+で1秒、そして2020年のiPhone 12 Proでも1秒で処理でき、iPhoneのハードウェアが特に優れていることが示されました。

この技術は、duration.aiが開発中のフラッグシップアプリに活用されます。このアプリは、最先端のオープンウエイトTTSモデルをデバイス上で動作させ、ユーザーが5~10秒録音するだけで、その声を即座に再現するゼロショット音声クローンを実現します。ゼロショットクローンは参照音声に敏感なため、高品質なノイズ除去が不可欠です。

チームはDeepFilterNet3、ElevenLabs API、DPDFNet、SEMamba++などと比較しました。結果、自社モデルはElevenLabsにわずかに劣るものの、オフラインで無料、かつデータがデバイスから出ないという利点があります。SEMamba++は16kHz動作で高周波数成分が失われ、音がこもる問題がありました。一方、自社モデルは48kHz対応で、息継ぎや歯擦音などのリアルな音声特徴を保持します。

ただし、残響除去は苦手で、残響は音声に残ります。SEMamba++やElevenLabsは残響除去に優れています。

全体として、duration.aiは古いモデルをモバイル向けに最適化することで、驚くべきノイズ除去性能を実現しました。モデルの圧縮やAndroidでの速度最適化など、地味な作業の積み重ねが、デバイス上でいつでもどこでもプライベートにノイズ除去を行うことを可能にしました。

デバイス上でのボイス録音のノイズ除去 | AI News Hub