增強型YOLO框架將360度小目標檢測準確率提升至90%
日本芝浦工業大學的研究團隊開發了一種基於遷移學習的增強型YOLO框架,透過自定義資料集和特徵定義,顯著提高了360度全景攝像機對小移動目標的檢測能力。該模型在距離50米內保持高效能,準確率達90%,遠超YOLOv5和YOLOv8。
日本芝浦工業大學的研究團隊近日開發了一種增強型YOLO框架,透過遷移學習和自定義資料集,將360度全景攝像機對小移動目標的檢測準確率提升至90%。這一成果發表在《IEEE Open Journal of Intelligent Transportation Systems》上。
全景攝像機因其360度視野而廣泛應用於監控、交通分析和自動駕駛系統。然而,廣角鏡頭導致遠處物體變形且微小,使得傳統計算機視覺系統難以準確識別。這一問題在行人、腳踏車、摩托車和汽車等移動目標的檢測中尤為突出。
YOLO(You Only Look Once)是一種快速且準確的即時目標檢測演算法,但在處理全景影片中的小目標時存在不足。由於YOLO將影像劃分為網格,當多個小目標落入同一網格時,視覺資訊容易丟失。為此,研究團隊設計了定製訓練資料集和遷移學習相結合的增強框架。
團隊建立了約4000張標註影像的資料集,涵蓋人、汽車、腳踏車和摩托車四類。為解決全景攝像機隨距離增加解析度下降的問題,他們為每類目標定義了關鍵特徵:人類至少露出一條手臂或腿,汽車至少兩個輪胎可見,腳踏車和摩托車需前後輪均可見。此外,透過裁剪影像和多角度包含目標,增強了資料集的代表性。
實驗結果表明,增強型YOLO模型在大於8×8畫素的目標上整體準確率達90%,而YOLOv5和YOLOv8僅分別為46%和53%。對於8×8至32×32畫素的小移動目標,新模型準確率為0.81,顯著高於YOLOv5的0.39和YOLOv8的0.42。距離測試顯示,標準YOLO模型在40米後準確率急劇下降,而新模型在50米內仍保持有效效能。
研究負責人Chinthaka Premachandra教授表示,該研究旨在解決十字路口等複雜交通場景中的事故隱患——車輛、行人和騎行者可能從多個方向突然出現。該技術可應用於智慧交通系統、自動駕駛和機器人導航,特別是交叉路口監控和安全輔助。
團隊希望未來能進一步提升檢測8×8畫素以下目標的能力,從而進一步降低事故風險,改善道路安全。