SoccerNet 2026 以玩家为中心的球类动作定位:基于一致性集成的每玩家注意力机制
该论文提出了一种两阶段流水线,用于从广播视频中定位足球比赛中的球员动作。首先,轨迹感知动作检测器(TAAD)利用时间变换器生成每个球员的动作得分;然后,去噪序列转导(DST)变换器将游戏状态特征和TAAD得分转换为结构化事件序列。通过引入空间优先的注意力排序和加权事件融合集成(含一致性过滤),该系统在SoccerNet 2026挑战赛中将Macro-F1从48.6提升至58.94。
本文介绍了作者团队在SoccerNet 2026以玩家为中心的球类动作定位挑战赛中的提交方案。该挑战赛要求从广播视频中精确识别每位球员的触球动作,例如传球、射门、铲球等。作者提出了一种两阶段流水线架构。
第一阶段称为轨迹感知动作检测器(Track-Aware Action Detector,简称TAAD)。TAAD从广播视频中提取每个球员的轨迹信息,并利用时间变换器(temporal transformer)增强跨帧的上下文理解,从而为每个球员生成原始的动作概率得分(logits)。此外,研究团队还修复了若干训练过程中的问题,进一步提升了TAAD的稳定性。
第二阶段是去噪序列转导(Denoising Sequence Transduction,简称DST)变换器。该模块接收游戏状态特征(如球员位置、场上态势等)以及TAAD的输出logits,通过一个新颖的两阶段每玩家注意力机制,将这些输入转化为结构化的比赛事件序列。关键的创新在于注意力顺序的设计:实验表明,采用“空间优先”的策略——即先执行球员之间的跨球员注意力,再执行时间维度上的注意力——能够使验证集上的Macro-F1指标提升1.87%。这种设计让模型优先关注同一时刻不同球员之间的交互,再追踪每个球员的时序变化,更符合足球比赛的逻辑。
为了进一步提升性能,作者利用不同架构的多样性,训练了四个模型变体,并通过加权事件融合(Weighted Event Fusion)集成方法进行组合。该集成方法引入一致性过滤,只有当多个模型对同一事件达成一致时才给予高置信度,从而有效抑制单个模型的假阳性预测,同时保持较高的召回率。针对数据集中稀少的“铲球”类别,团队还特别设计了异常处理逻辑,避免被过滤掉。
最终,该系统在挑战赛的测试集上将Macro-F1从基线模型的48.6提升至58.94,取得了显著改进。这一成果展示了结合轨迹感知检测、注意力机制优化和集成策略在视频动作定位任务中的潜力,为后续研究提供了有价值的参考。