2026-06-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

AVTrack：以人为中心的复杂场景中的音视频跟踪

AVTrack是一个为动态真实世界场景设计的人为中心的音视频实例分割数据集，包含摄像机运动、视觉遮挡和位置变化等挑战性条件。评估显示现有方法性能显著下降，为稳健的人为中心场景理解提供了基准。

来源arXiv Computer Vision作者: Yaoting Wang, Yun Zhou, Zipei Zhang, Henghui Ding

音频-视觉说话人跟踪是计算机视觉与语音处理交叉领域的一项重要任务，其目标是通过融合听觉和视觉线索来定位并跟踪正在说话的人，从而实现细粒度、以人为中心的场景理解。这种能力在许多实际应用中发挥着关键作用，例如智能视频编辑、安防监控以及人机交互等。然而，现有的大多数数据集都局限于简单或同质的音视频场景，并且标注较为粗糙。这种过度简化的设置容易导致评估结果偏向于静态的音视频共现，而无法严格衡量模型在复杂动态场景中的鲁棒时空建模和跨模态推理能力。

为了填补这一空白，研究人员提出了AVTrack——一个专门为动态真实世界场景设计的人为中心音视频实例分割数据集。AVTrack引入了多样且具有挑战性的条件，包括摄像机运动、视觉遮挡以及说话人位置变化等。这些因素使得数据集更加贴近实际应用中的复杂环境。研究者对现有的代表性音视频实例分割方法在AVTrack上进行了全面评估，结果揭示了显著的性能下降，表明现有方法在面对复杂动态场景时存在严重不足。AVTrack因此成为了一个具有挑战性的基准，用以推动鲁棒的以人为中心音视频场景理解技术的发展。

除了数据集本身，该工作还提供了一个简单但有效的基线方法，以降低入门门槛并促进未来研究。该项目已被ICML 2026接收，相关代码和数据集已在项目网站上公开（https://FudanCVL.github.io/AVTrack/）。AVTrack的发布将为音频-视觉跟踪领域带来新的研究方向，激励研究者开发能够应对真实世界复杂性的更鲁棒模型。