StereoFoley:從影片生成物件感知的立體聲音訊
Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架,能夠從影片中生成語義對齊、時間同步且空間準確的48kHz立體聲音訊。透過合成資料管道和微調技術,解決了現有模型缺乏物件感知立體聲成像的問題,並引入了新的評估指標。
Apple機器學習研究團隊在ICASSP 2026上發表了StereoFoley,這是一個全新的影片到音訊生成框架,能夠從影片中產生語義對齊、時間同步且空間準確的48kHz立體聲音訊。當前最先進的影片到音訊生成模型雖然在語義和保真度上表現出色,但大多侷限於單聲道或無法提供物件感知的立體聲成像,主要原因在於缺乏專業混音且空間準確的影片到音訊資料集。
StereoFoley首先構建了一個基礎模型,直接從影片生成立體聲音訊,在語義準確性和同步性上達到了與現有最佳模型相當的水平。為了克服資料集限制,研究人員設計了一條創新的合成資料生成管道。該管道首先對影片進行分析,追蹤其中的運動物體,然後結合音訊合成技術,並引入動態聲像移動和基於距離的音量控制,從而生成空間準確的物件感知音訊。這一方法使得模型能夠學習到物體與聲音在空間上的對應關係。
在合成資料集上對基礎模型進行微調後,模型展現了清晰的物體-音訊對應能力。由於該領域缺乏成熟的評價指標,團隊引入了一個立體聲物件感知度指標,並同時開展了人類聽力研究。兩種評估結果呈現出一致趨勢,驗證了該框架的有效性。
StereoFoley的提出填補了立體聲物件感知影片到音訊生成領域的空白,為沉浸式媒體內容創作、虛擬現實和輔助聽覺技術提供了新的可能性。該研究由加州大學聖地亞哥分校的Tornike Karchkhadze與Apple的研究人員合作完成,論文已被ICASSP 2026接收。