2026-06-12站内改写1 分钟阅读更新: 2026-06-12

上下文感知特征融合：自动驾驶中共同目标的检测

提出一种名为上下文中心特征融合（CCFF）的新型框架，通过局部上下文融合模块（LCFM）和全局上下文注意力模块（GCAM）处理自动驾驶中共同目标的检测问题。在Cityscapes和BDD100K数据集上，类别级一致性策略（CCS）分别达到0.973和0.969，小目标检测AP_S提升14.1%，并成功恢复稀有类别如“火车”。框架支持实时处理，仅增加0.2 FPS开销。

来源arXiv Computer Vision作者: Binay Kumar Singh, Niels Da Vitoria Lobo

在自动驾驶场景中，目标检测不仅需要精确的定位，还必须理解共同出现物体之间的上下文关系。由于城市环境高度复杂且异构，标准检测框架在处理稀有类别、小尺度物体以及频繁出现的物体时常常力不从心。针对这一挑战，研究者提出了上下文中心特征融合（CCFF）框架，旨在通过局部和全局上下文的联合建模，显著提升共同目标检测的性能。

CCFF框架包含两个基于注意力机制的模块：局部上下文融合模块（LCFM）和全局上下文注意力模块（GCAM）。LCFM利用RoI到RoI的自注意力机制处理空间交互，特别关注小物体和部分被遮挡的物体；而GCAM则通过池化top-K的RoI特征生成全局上下文注意力令牌，避免了像素级全局池化的高计算成本。两者的融合产生了上下文嵌入，不仅改善了分类结果，也增强了共同物体的检测能力。

在Cityscapes和BDD100K两个主流自动驾驶数据集上，该方法取得了显著效果。类别级一致性策略（CCS）分别达到0.973和0.969，远超基准方法。更重要的是，小目标检测的平均精度（AP_S）提升了14.1%，同时成功恢复了在大型分布中常见的“火车”等稀有类别。效率评估显示，CCFF框架能够以实时速度处理图像，仅增加0.2 FPS的额外开销。

该研究为自动驾驶中的复杂目标检测提供了新思路，尤其在处理小目标和稀有类别方面表现出色。代码已在GitHub上开源，有望推动该领域的进一步发展。