2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

上下文感知特徵融合：自動駕駛中共同目標的檢測

提出一種名為上下文中心特徵融合（CCFF）的新型框架，通過局部上下文融合模塊（LCFM）和全局上下文注意力模塊（GCAM）處理自動駕駛中共同目標的檢測問題。在Cityscapes和BDD100K數據集上，類別級一致性策略（CCS）分別達到0.973和0.969，小目標檢測AP_S提升14.1%，併成功恢復稀有類別如“火車”。框架支持實時處理，僅增加0.2 FPS開銷。

來源arXiv Computer Vision作者: Binay Kumar Singh, Niels Da Vitoria Lobo

在自動駕駛場景中，目標檢測不僅需要精確的定位，還必須理解共同出現物體之間的上下文關係。由於城市環境高度複雜且異構，標準檢測框架在處理稀有類別、小尺度物體以及頻繁出現的物體時常常力不從心。針對這一挑戰，研究者提出了上下文中心特徵融合（CCFF）框架，旨在通過局部和全局上下文的聯合建模，顯著提升共同目標檢測的性能。

CCFF框架包含兩個基於注意力機制的模塊：局部上下文融合模塊（LCFM）和全局上下文注意力模塊（GCAM）。LCFM利用RoI到RoI的自注意力機制處理空間交互，特別關注小物體和部分被遮擋的物體；而GCAM則通過池化top-K的RoI特徵生成全局上下文注意力令牌，避免了像素級全局池化的高計算成本。兩者的融合產生了上下文嵌入，不僅改善了分類結果，也增強了共同物體的檢測能力。

在Cityscapes和BDD100K兩個主流自動駕駛數據集上，該方法取得了顯著效果。類別級一致性策略（CCS）分別達到0.973和0.969，遠超基準方法。更重要的是，小目標檢測的平均精度（AP_S）提升了14.1%，同時成功恢復了在大型分佈中常見的“火車”等稀有類別。效率評估顯示，CCFF框架能夠以實時速度處理圖像，僅增加0.2 FPS的額外開銷。

該研究為自動駕駛中的複雜目標檢測提供了新思路，尤其在處理小目標和稀有類別方面表現出色。代碼已在GitHub上開源，有望推動該領域的進一步發展。