2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:17 UTC+8

SoccerNet 2026 以玩家为中心的球类动作定位：基于一致性集成的每玩家注意力机制

该论文提出了一种两阶段流水线，用于从广播视频中定位足球比赛中的球员动作。首先，轨迹感知动作检测器（TAAD）利用时间变换器生成每个球员的动作得分；然后，去噪序列转导（DST）变换器将游戏状态特征和TAAD得分转换为结构化事件序列。通过引入空间优先的注意力排序和加权事件融合集成（含一致性过滤），该系统在SoccerNet 2026挑战赛中将Macro-F1从48.6提升至58.94。

来源arXiv Computer Vision作者: Faisal Altawijri, Ismail Mathkour

本文介绍了作者团队在SoccerNet 2026以玩家为中心的球类动作定位挑战赛中的提交方案。该挑战赛要求从广播视频中精确识别每位球员的触球动作，例如传球、射门、铲球等。作者提出了一种两阶段流水线架构。

第一阶段称为轨迹感知动作检测器（Track-Aware Action Detector，简称TAAD）。TAAD从广播视频中提取每个球员的轨迹信息，并利用时间变换器（temporal transformer）增强跨帧的上下文理解，从而为每个球员生成原始的动作概率得分（logits）。此外，研究团队还修复了若干训练过程中的问题，进一步提升了TAAD的稳定性。

第二阶段是去噪序列转导（Denoising Sequence Transduction，简称DST）变换器。该模块接收游戏状态特征（如球员位置、场上态势等）以及TAAD的输出logits，通过一个新颖的两阶段每玩家注意力机制，将这些输入转化为结构化的比赛事件序列。关键的创新在于注意力顺序的设计：实验表明，采用“空间优先”的策略——即先执行球员之间的跨球员注意力，再执行时间维度上的注意力——能够使验证集上的Macro-F1指标提升1.87%。这种设计让模型优先关注同一时刻不同球员之间的交互，再追踪每个球员的时序变化，更符合足球比赛的逻辑。

为了进一步提升性能，作者利用不同架构的多样性，训练了四个模型变体，并通过加权事件融合（Weighted Event Fusion）集成方法进行组合。该集成方法引入一致性过滤，只有当多个模型对同一事件达成一致时才给予高置信度，从而有效抑制单个模型的假阳性预测，同时保持较高的召回率。针对数据集中稀少的“铲球”类别，团队还特别设计了异常处理逻辑，避免被过滤掉。

最终，该系统在挑战赛的测试集上将Macro-F1从基线模型的48.6提升至58.94，取得了显著改进。这一成果展示了结合轨迹感知检测、注意力机制优化和集成策略在视频动作定位任务中的潜力，为后续研究提供了有价值的参考。