StereoFoley:從視頻生成對象感知的立體聲音頻
Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架,能夠從視頻中生成語義對齊、時間同步且空間準確的48kHz立體聲音頻。通過合成數據管道和微調技術,解決了現有模型缺乏對象感知立體聲成像的問題,並引入了新的評估指標。
Apple機器學習研究團隊在ICASSP 2026上發表了StereoFoley,這是一個全新的視頻到音頻生成框架,能夠從視頻中產生語義對齊、時間同步且空間準確的48kHz立體聲音頻。當前最先進的視頻到音頻生成模型雖然在語義和保真度上表現出色,但大多侷限於單聲道或無法提供對象感知的立體聲成像,主要原因在於缺乏專業混音且空間準確的視頻到音頻數據集。
StereoFoley首先構建了一個基礎模型,直接從視頻生成立體聲音頻,在語義準確性和同步性上達到了與現有最佳模型相當的水平。為了克服數據集限制,研究人員設計了一條創新的合成數據生成管道。該管道首先對視頻進行分析,追蹤其中的運動物體,然後結合音頻合成技術,並引入動態聲像移動和基於距離的音量控制,從而生成空間準確的對象感知音頻。這一方法使得模型能夠學習到物體與聲音在空間上的對應關係。
在合成數據集上對基礎模型進行微調後,模型展現了清晰的物體-音頻對應能力。由於該領域缺乏成熟的評價指標,團隊引入了一個立體聲對象感知度指標,並同時開展了人類聽力研究。兩種評估結果呈現出一致趨勢,驗證了該框架的有效性。
StereoFoley的提出填補了立體聲對象感知視頻到音頻生成領域的空白,為沉浸式媒體內容創作、虛擬現實和輔助聽覺技術提供了新的可能性。該研究由加州大學聖地亞哥分校的Tornike Karchkhadze與Apple的研究人員合作完成,論文已被ICASSP 2026接收。