增强型YOLO框架将360度小目标检测准确率提升至90%
日本芝浦工业大学的研究团队开发了一种基于迁移学习的增强型YOLO框架,通过自定义数据集和特征定义,显著提高了360度全景摄像机对小移动目标的检测能力。该模型在距离50米内保持高性能,准确率达90%,远超YOLOv5和YOLOv8。
日本芝浦工业大学的研究团队近日开发了一种增强型YOLO框架,通过迁移学习和自定义数据集,将360度全景摄像机对小移动目标的检测准确率提升至90%。这一成果发表在《IEEE Open Journal of Intelligent Transportation Systems》上。
全景摄像机因其360度视野而广泛应用于监控、交通分析和自动驾驶系统。然而,广角镜头导致远处物体变形且微小,使得传统计算机视觉系统难以准确识别。这一问题在行人、自行车、摩托车和汽车等移动目标的检测中尤为突出。
YOLO(You Only Look Once)是一种快速且准确的实时目标检测算法,但在处理全景视频中的小目标时存在不足。由于YOLO将图像划分为网格,当多个小目标落入同一网格时,视觉信息容易丢失。为此,研究团队设计了定制训练数据集和迁移学习相结合的增强框架。
团队创建了约4000张标注图像的数据集,涵盖人、汽车、自行车和摩托车四类。为解决全景摄像机随距离增加分辨率下降的问题,他们为每类目标定义了关键特征:人类至少露出一条手臂或腿,汽车至少两个轮胎可见,自行车和摩托车需前后轮均可见。此外,通过裁剪图像和多角度包含目标,增强了数据集的代表性。
实验结果表明,增强型YOLO模型在大于8×8像素的目标上整体准确率达90%,而YOLOv5和YOLOv8仅分别为46%和53%。对于8×8至32×32像素的小移动目标,新模型准确率为0.81,显著高于YOLOv5的0.39和YOLOv8的0.42。距离测试显示,标准YOLO模型在40米后准确率急剧下降,而新模型在50米内仍保持有效性能。
研究负责人Chinthaka Premachandra教授表示,该研究旨在解决十字路口等复杂交通场景中的事故隐患——车辆、行人和骑行者可能从多个方向突然出现。该技术可应用于智能交通系统、自动驾驶和机器人导航,特别是交叉路口监控和安全辅助。
团队希望未来能进一步提升检测8×8像素以下目标的能力,从而进一步降低事故风险,改善道路安全。