2026-04-28 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

StereoFoley：从视频生成对象感知的立体声音频

Apple机器学习研究团队在ICASSP 2026上提出StereoFoley框架，能够从视频中生成语义对齐、时间同步且空间准确的48kHz立体声音频。通过合成数据管道和微调技术，解决了现有模型缺乏对象感知立体声成像的问题，并引入了新的评估指标。

来源Apple Machine Learning Research

Apple机器学习研究团队在ICASSP 2026上发表了StereoFoley，这是一个全新的视频到音频生成框架，能够从视频中产生语义对齐、时间同步且空间准确的48kHz立体声音频。当前最先进的视频到音频生成模型虽然在语义和保真度上表现出色，但大多局限于单声道或无法提供对象感知的立体声成像，主要原因在于缺乏专业混音且空间准确的视频到音频数据集。

StereoFoley首先构建了一个基础模型，直接从视频生成立体声音频，在语义准确性和同步性上达到了与现有最佳模型相当的水平。为了克服数据集限制，研究人员设计了一条创新的合成数据生成管道。该管道首先对视频进行分析，追踪其中的运动物体，然后结合音频合成技术，并引入动态声像移动和基于距离的音量控制，从而生成空间准确的对象感知音频。这一方法使得模型能够学习到物体与声音在空间上的对应关系。

在合成数据集上对基础模型进行微调后，模型展现了清晰的物体-音频对应能力。由于该领域缺乏成熟的评价指标，团队引入了一个立体声对象感知度指标，并同时开展了人类听力研究。两种评估结果呈现出一致趋势，验证了该框架的有效性。

StereoFoley的提出填补了立体声对象感知视频到音频生成领域的空白，为沉浸式媒体内容创作、虚拟现实和辅助听觉技术提供了新的可能性。该研究由加州大学圣地亚哥分校的Tornike Karchkhadze与Apple的研究人员合作完成，论文已被ICASSP 2026接收。