AI News HubLIVE
站内改写1 分钟阅读

StereoFoley:从视频生成对象感知的立体声音频

Apple机器学习研究团队在ICASSP 2026上提出StereoFoley框架,能够从视频中生成语义对齐、时间同步且空间准确的48kHz立体声音频。通过合成数据管道和微调技术,解决了现有模型缺乏对象感知立体声成像的问题,并引入了新的评估指标。

Apple机器学习研究团队在ICASSP 2026上发表了StereoFoley,这是一个全新的视频到音频生成框架,能够从视频中产生语义对齐、时间同步且空间准确的48kHz立体声音频。当前最先进的视频到音频生成模型虽然在语义和保真度上表现出色,但大多局限于单声道或无法提供对象感知的立体声成像,主要原因在于缺乏专业混音且空间准确的视频到音频数据集。

StereoFoley首先构建了一个基础模型,直接从视频生成立体声音频,在语义准确性和同步性上达到了与现有最佳模型相当的水平。为了克服数据集限制,研究人员设计了一条创新的合成数据生成管道。该管道首先对视频进行分析,追踪其中的运动物体,然后结合音频合成技术,并引入动态声像移动和基于距离的音量控制,从而生成空间准确的对象感知音频。这一方法使得模型能够学习到物体与声音在空间上的对应关系。

在合成数据集上对基础模型进行微调后,模型展现了清晰的物体-音频对应能力。由于该领域缺乏成熟的评价指标,团队引入了一个立体声对象感知度指标,并同时开展了人类听力研究。两种评估结果呈现出一致趋势,验证了该框架的有效性。

StereoFoley的提出填补了立体声对象感知视频到音频生成领域的空白,为沉浸式媒体内容创作、虚拟现实和辅助听觉技术提供了新的可能性。该研究由加州大学圣地亚哥分校的Tornike Karchkhadze与Apple的研究人员合作完成,论文已被ICASSP 2026接收。