AI News HubLIVE
サイト内リライト1 分で読了

StereoFoley:映像からオブジェクト認識ステレオオーディオを生成

Appleの機械学習研究チームがICASSP 2026で発表したStereoFoleyは、映像から意味的に整合し、時間的に同期し、空間的に正確な48kHzステレオ音声を生成するフレームワークです。合成データパイプラインとファインチューニングにより、オブジェクト認識ステレオイメージングを実現し、新たな評価指標を導入しました。

Appleの機械学習研究チームは、ICASSP 2026でStereoFoleyを発表しました。これは、映像から意味的に整合し、時間的に同期し、空間的に正確な48kHzのステレオ音声を生成するフレームワークです。現在の最先端の映像-to-音声生成モデルは、意味的および時間的忠実度で優れていますが、多くはモノラルに限られるか、オブジェクト認識によるステレオイメージングを提供できていません。その主な原因は、プロフェッショナルにミキシングされ、空間的に正確な映像-to-音声データセットが不足していることです。

StereoFoleyはまず、映像から直接ステレオ音声を生成するベースモデルを構築し、意味的精度と同期性において最先端のV2Aモデルと同等の性能を達成しました。データセットの制限を克服するため、研究者らは合成データ生成パイプラインを導入しました。このパイプラインは、映像分析、物体追跡、および音声合成を組み合わせ、ダイナミックパンニングと距離に基づくラウドネス制御を適用し、空間的に正確なオブジェクト認識音声を生成します。その後、この合成データセットでベースモデルをファインチューニングし、物体と音声の明確な対応を実現しました。

この分野には確立された評価指標が存在しないため、チームはステレオオブジェクト認識指標を導入し、人間による聴取実験も実施しました。両方の評価は一貫した傾向を示し、フレームワークの有効性が確認されました。

StereoFoleyは、ステレオオブジェクト認識映像-to-音声生成のギャップを埋めるものであり、没入型メディア制作、仮想現実、聴覚補助技術への応用が期待されます。本研究はカリフォルニア大学サンディエゴ校のTornike KarchkhadzeとAppleの研究者による共同研究であり、ICASSP 2026に採択されました。