上下文感知特徵融合:自動駕駛中共同目標的檢測
提出一種名為上下文中心特徵融合(CCFF)的新型框架,通過局部上下文融合模塊(LCFM)和全局上下文注意力模塊(GCAM)處理自動駕駛中共同目標的檢測問題。在Cityscapes和BDD100K數據集上,類別級一致性策略(CCS)分別達到0.973和0.969,小目標檢測AP_S提升14.1%,併成功恢復稀有類別如“火車”。框架支持實時處理,僅增加0.2 FPS開銷。
在自動駕駛場景中,目標檢測不僅需要精確的定位,還必須理解共同出現物體之間的上下文關係。由於城市環境高度複雜且異構,標準檢測框架在處理稀有類別、小尺度物體以及頻繁出現的物體時常常力不從心。針對這一挑戰,研究者提出了上下文中心特徵融合(CCFF)框架,旨在通過局部和全局上下文的聯合建模,顯著提升共同目標檢測的性能。
CCFF框架包含兩個基於注意力機制的模塊:局部上下文融合模塊(LCFM)和全局上下文注意力模塊(GCAM)。LCFM利用RoI到RoI的自注意力機制處理空間交互,特別關注小物體和部分被遮擋的物體;而GCAM則通過池化top-K的RoI特徵生成全局上下文注意力令牌,避免了像素級全局池化的高計算成本。兩者的融合產生了上下文嵌入,不僅改善了分類結果,也增強了共同物體的檢測能力。
在Cityscapes和BDD100K兩個主流自動駕駛數據集上,該方法取得了顯著效果。類別級一致性策略(CCS)分別達到0.973和0.969,遠超基準方法。更重要的是,小目標檢測的平均精度(AP_S)提升了14.1%,同時成功恢復了在大型分佈中常見的“火車”等稀有類別。效率評估顯示,CCFF框架能夠以實時速度處理圖像,僅增加0.2 FPS的額外開銷。
該研究為自動駕駛中的複雜目標檢測提供了新思路,尤其在處理小目標和稀有類別方面表現出色。代碼已在GitHub上開源,有望推動該領域的進一步發展。