2026-04-28 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

StereoFoley：從影片生成物件感知的立體聲音訊

Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架，能夠從影片中生成語義對齊、時間同步且空間準確的48kHz立體聲音訊。透過合成資料管道和微調技術，解決了現有模型缺乏物件感知立體聲成像的問題，並引入了新的評估指標。

來源Apple Machine Learning Research

Apple機器學習研究團隊在ICASSP 2026上發表了StereoFoley，這是一個全新的影片到音訊生成框架，能夠從影片中產生語義對齊、時間同步且空間準確的48kHz立體聲音訊。當前最先進的影片到音訊生成模型雖然在語義和保真度上表現出色，但大多侷限於單聲道或無法提供物件感知的立體聲成像，主要原因在於缺乏專業混音且空間準確的影片到音訊資料集。

StereoFoley首先構建了一個基礎模型，直接從影片生成立體聲音訊，在語義準確性和同步性上達到了與現有最佳模型相當的水平。為了克服資料集限制，研究人員設計了一條創新的合成資料生成管道。該管道首先對影片進行分析，追蹤其中的運動物體，然後結合音訊合成技術，並引入動態聲像移動和基於距離的音量控制，從而生成空間準確的物件感知音訊。這一方法使得模型能夠學習到物體與聲音在空間上的對應關係。

在合成資料集上對基礎模型進行微調後，模型展現了清晰的物體-音訊對應能力。由於該領域缺乏成熟的評價指標，團隊引入了一個立體聲物件感知度指標，並同時開展了人類聽力研究。兩種評估結果呈現出一致趨勢，驗證了該框架的有效性。

StereoFoley的提出填補了立體聲物件感知影片到音訊生成領域的空白，為沉浸式媒體內容創作、虛擬現實和輔助聽覺技術提供了新的可能性。該研究由加州大學聖地亞哥分校的Tornike Karchkhadze與Apple的研究人員合作完成，論文已被ICASSP 2026接收。