2026-06-28 21:11 UTC+9サイト内リライト2 分で読了更新: 2026-06-28 21:21 UTC+9

デバイス上でのボイス録音のノイズ除去

duration.aiがオープンウエイトのノイズ除去モデルをiOSとAndroidに移植し、有料クラウドサービスに迫る性能を実現。ゼロショット音声クローンのためのクリーンな参照音声を提供する。

ソースHacker News AI著者: sudb

記事インテリジェンス

エンジニア上級

要点

duration.aiはオープンウエイトのノイズ除去モデルをスマートフォンに移植し、有料クラウドサービスと同等の性能を達成。
モデルは48kHzで動作し、息継ぎや歯擦音などの高周波数成分を保持。
古いモデルだが、背景の話者や音楽の除去においてSEMamba++などの代替手段を上回る。
このノイズ除去器は、フラッグシップアプリにおけるゼロショット音声クローンの参照音声のクリーンアップに使用される。

重要な理由

このニュースが重要なのは、duration.aiはオープンウエイトのノイズ除去モデルをスマートフォンに移植し、有料クラウドサービスと同等の性能を達成ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

duration.aiは、オープンウエイトの音声ノイズ除去モデルをiOSおよびAndroidデバイスに移植し、高品質なノイズ除去をスマートフォン上で実現しました。このモデルは、数年前のオープンソースモデルをベースに、サイズを半分以下に圧縮し、モバイル向けに最適化されています。テストでは、背景音楽、重なり合う会話、ファンの騒音などを効果的に除去し、その性能はElevenLabsなどの有料クラウドサービスに迫るものでした。

M1 MacBook Proでは10秒のクリップを約0.4秒で処理。スマートフォンでは、Fairphone 4で4～5秒、Galaxy S25+で1秒、そして2020年のiPhone 12 Proでも1秒で処理でき、iPhoneのハードウェアが特に優れていることが示されました。

この技術は、duration.aiが開発中のフラッグシップアプリに活用されます。このアプリは、最先端のオープンウエイトTTSモデルをデバイス上で動作させ、ユーザーが5～10秒録音するだけで、その声を即座に再現するゼロショット音声クローンを実現します。ゼロショットクローンは参照音声に敏感なため、高品質なノイズ除去が不可欠です。

チームはDeepFilterNet3、ElevenLabs API、DPDFNet、SEMamba++などと比較しました。結果、自社モデルはElevenLabsにわずかに劣るものの、オフラインで無料、かつデータがデバイスから出ないという利点があります。SEMamba++は16kHz動作で高周波数成分が失われ、音がこもる問題がありました。一方、自社モデルは48kHz対応で、息継ぎや歯擦音などのリアルな音声特徴を保持します。

ただし、残響除去は苦手で、残響は音声に残ります。SEMamba++やElevenLabsは残響除去に優れています。

全体として、duration.aiは古いモデルをモバイル向けに最適化することで、驚くべきノイズ除去性能を実現しました。モデルの圧縮やAndroidでの速度最適化など、地味な作業の積み重ねが、デバイス上でいつでもどこでもプライベートにノイズ除去を行うことを可能にしました。