上下文感知特征融合:自动驾驶中共同目标的检测
提出一种名为上下文中心特征融合(CCFF)的新型框架,通过局部上下文融合模块(LCFM)和全局上下文注意力模块(GCAM)处理自动驾驶中共同目标的检测问题。在Cityscapes和BDD100K数据集上,类别级一致性策略(CCS)分别达到0.973和0.969,小目标检测AP_S提升14.1%,并成功恢复稀有类别如“火车”。框架支持实时处理,仅增加0.2 FPS开销。
在自动驾驶场景中,目标检测不仅需要精确的定位,还必须理解共同出现物体之间的上下文关系。由于城市环境高度复杂且异构,标准检测框架在处理稀有类别、小尺度物体以及频繁出现的物体时常常力不从心。针对这一挑战,研究者提出了上下文中心特征融合(CCFF)框架,旨在通过局部和全局上下文的联合建模,显著提升共同目标检测的性能。
CCFF框架包含两个基于注意力机制的模块:局部上下文融合模块(LCFM)和全局上下文注意力模块(GCAM)。LCFM利用RoI到RoI的自注意力机制处理空间交互,特别关注小物体和部分被遮挡的物体;而GCAM则通过池化top-K的RoI特征生成全局上下文注意力令牌,避免了像素级全局池化的高计算成本。两者的融合产生了上下文嵌入,不仅改善了分类结果,也增强了共同物体的检测能力。
在Cityscapes和BDD100K两个主流自动驾驶数据集上,该方法取得了显著效果。类别级一致性策略(CCS)分别达到0.973和0.969,远超基准方法。更重要的是,小目标检测的平均精度(AP_S)提升了14.1%,同时成功恢复了在大型分布中常见的“火车”等稀有类别。效率评估显示,CCFF框架能够以实时速度处理图像,仅增加0.2 FPS的额外开销。
该研究为自动驾驶中的复杂目标检测提供了新思路,尤其在处理小目标和稀有类别方面表现出色。代码已在GitHub上开源,有望推动该领域的进一步发展。