文脈認識型特徴融合:自動運転における共起物体検出
局所文脈融合モジュール(LCFM)と大域文脈注意モジュール(GCAM)を用いたContext-Centric Feature Fusion(CCFF)フレームワークを提案。CityscapesとBDD100Kデータセットでカテゴリレベルの一貫性戦略(CCS)がそれぞれ0.973と0.969に達し、小物体検出AP_Sが14.1%向上、まれなクラス「Train」の復元に成功。リアルタイム処理を実現し、オーバーヘッドは0.2 FPSのみ。
自動運転における物体検出には、正確な位置特定と、共起する物体間の関係性の理解が不可欠です。特に複雑で異種混在する環境では、標準的な検出フレームワークはまれなクラス、小規模な物体、頻繁に出現する物体を適切に扱うことが困難です。この問題に対処するため、研究者らはContext-Centric Feature Fusion(CCFF)フレームワークを提案しました。
CCFFは2つの注意機構モジュールを活用します。局所文脈融合モジュール(LCFM)はRoI間の自己注意機構により空間的相互作用を処理し、主に小さく部分的に隠れた物体に焦点を当てます。一方、大域文脈注意モジュール(GCAM)は、上位K個のRoI特徴をプーリングして大域文脈注意トークンに変換することで、画素レベルのグローバルプーリングの計算負荷を回避します。この局所特徴と物体中心の大域特徴の融合により、文脈化された埋め込みが生成され、分類性能と共起物体検出が向上します。
本手法はCityscapesおよびBDD100Kの2つのデータセットで評価されました。カテゴリレベルの一貫性戦略(CCS)はそれぞれ0.973と0.969を達成し、ベースラインを大幅に上回りました。特に小物体検出では平均精度(AP_S)が14.1%向上し、大規模分布で通常失われる「Train」などのまれなクラスの復元にも成功しました。効率性の評価では、CCFFフレームワークはわずか0.2 FPSのオーバーヘッドで画像をリアルタイム処理できます。
本研究は自動運転における複雑な物体検出に新たな道を開き、特に小物体やまれなクラスの処理において顕著な成果を挙げています。コードはGitHubで公開されており、今後の研究と実用化に貢献することが期待されます。