2026-04-28 09:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-27 09:25 UTC+9

StereoFoley：映像からオブジェクト認識ステレオオーディオを生成

Appleの機械学習研究チームがICASSP 2026で発表したStereoFoleyは、映像から意味的に整合し、時間的に同期し、空間的に正確な48kHzステレオ音声を生成するフレームワークです。合成データパイプラインとファインチューニングにより、オブジェクト認識ステレオイメージングを実現し、新たな評価指標を導入しました。

ソースApple Machine Learning Research

記事インテリジェンス

エンジニア上級

要点

StereoFoleyは、オブジェクト認識ステレオ映像→音声生成の初のエンドツーエンドフレームワークで、48kHzステレオを出力。
物体追跡とダイナミックパンニングを用いた合成データパイプラインで、専門データセットの不足を克服。
ステレオオブジェクト認識指標を提案し、人間の聴取実験で有効性を確認。
意味的精度と時間同期性で最先端のV2Aモデルに匹敵。

重要な理由

このニュースが重要なのは、StereoFoleyは、オブジェクト認識ステレオ映像→音声生成の初のエンドツーエンドフレームワークで、48kHzステレオを出力ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Appleの機械学習研究チームは、ICASSP 2026でStereoFoleyを発表しました。これは、映像から意味的に整合し、時間的に同期し、空間的に正確な48kHzのステレオ音声を生成するフレームワークです。現在の最先端の映像-to-音声生成モデルは、意味的および時間的忠実度で優れていますが、多くはモノラルに限られるか、オブジェクト認識によるステレオイメージングを提供できていません。その主な原因は、プロフェッショナルにミキシングされ、空間的に正確な映像-to-音声データセットが不足していることです。

StereoFoleyはまず、映像から直接ステレオ音声を生成するベースモデルを構築し、意味的精度と同期性において最先端のV2Aモデルと同等の性能を達成しました。データセットの制限を克服するため、研究者らは合成データ生成パイプラインを導入しました。このパイプラインは、映像分析、物体追跡、および音声合成を組み合わせ、ダイナミックパンニングと距離に基づくラウドネス制御を適用し、空間的に正確なオブジェクト認識音声を生成します。その後、この合成データセットでベースモデルをファインチューニングし、物体と音声の明確な対応を実現しました。

この分野には確立された評価指標が存在しないため、チームはステレオオブジェクト認識指標を導入し、人間による聴取実験も実施しました。両方の評価は一貫した傾向を示し、フレームワークの有効性が確認されました。

StereoFoleyは、ステレオオブジェクト認識映像-to-音声生成のギャップを埋めるものであり、没入型メディア制作、仮想現実、聴覚補助技術への応用が期待されます。本研究はカリフォルニア大学サンディエゴ校のTornike KarchkhadzeとAppleの研究者による共同研究であり、ICASSP 2026に採択されました。