2026-04-28 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

StereoFoley：從視頻生成對象感知的立體聲音頻

Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架，能夠從視頻中生成語義對齊、時間同步且空間準確的48kHz立體聲音頻。通過合成數據管道和微調技術，解決了現有模型缺乏對象感知立體聲成像的問題，並引入了新的評估指標。

來源Apple Machine Learning Research

Apple機器學習研究團隊在ICASSP 2026上發表了StereoFoley，這是一個全新的視頻到音頻生成框架，能夠從視頻中產生語義對齊、時間同步且空間準確的48kHz立體聲音頻。當前最先進的視頻到音頻生成模型雖然在語義和保真度上表現出色，但大多侷限於單聲道或無法提供對象感知的立體聲成像，主要原因在於缺乏專業混音且空間準確的視頻到音頻數據集。

StereoFoley首先構建了一個基礎模型，直接從視頻生成立體聲音頻，在語義準確性和同步性上達到了與現有最佳模型相當的水平。為了克服數據集限制，研究人員設計了一條創新的合成數據生成管道。該管道首先對視頻進行分析，追蹤其中的運動物體，然後結合音頻合成技術，並引入動態聲像移動和基於距離的音量控制，從而生成空間準確的對象感知音頻。這一方法使得模型能夠學習到物體與聲音在空間上的對應關係。

在合成數據集上對基礎模型進行微調後，模型展現了清晰的物體-音頻對應能力。由於該領域缺乏成熟的評價指標，團隊引入了一個立體聲對象感知度指標，並同時開展了人類聽力研究。兩種評估結果呈現出一致趨勢，驗證了該框架的有效性。

StereoFoley的提出填補了立體聲對象感知視頻到音頻生成領域的空白，為沉浸式媒體內容創作、虛擬現實和輔助聽覺技術提供了新的可能性。該研究由加州大學聖地亞哥分校的Tornike Karchkhadze與Apple的研究人員合作完成，論文已被ICASSP 2026接收。