无监督记忆增强视频变换器:自主农业机器人的障碍物检测
本文提出了一种名为VMTAD的全无监督实时障碍物检测方法,专为农业机器人设计。它利用变换器架构和记忆模块处理动态场景,在油菜数据集上达到0.973检测和0.997分割AUC,轻量版推理仅需14毫秒,兼顾高精度与实时性。
来源arXiv Robotics作者: Th\'eo Biardeau (XLIM-ASALI, UFR SFA), Anne-Sophie Capelle-Laiz\'e (UP, XLIM-ASALI, XLIM-ASALI), Salwan Alwan (UFR SFA), David Helbert (UFR SFA)
自主农业机器人在精准农业中扮演着日益重要的角色,但其运行安全性仍是一大难题。传统安全传感器如LiDAR无法探测植物冠层下方的障碍物,而基于摄像头的监督学习方法虽然能识别常见物体,却对训练数据中未出现的新障碍物束手无策。无监督异常检测通过学习环境的正常视觉模式来发现异常,但移动机器人拍摄的动态场景常常令其失效。
针对这些挑战,研究人员提出了视频记忆变换器(VMTAD),一种完全无监督的实时障碍物检测方法。VMTAD采用变换器架构,并配备专门的记忆模块,通过处理前几帧的编码表示来利用时间上下文信息,从而有效应对机器人移动造成的动态环境变化。该模型仅使用正常运行的图像进行训练,无需任何人工标注。
VMTAD在名为“Grillion”的农业机器人上进行了严格测试。在具有挑战性的油菜数据集上,VMTAD达到了最先进的性能,障碍物检测和分割的受试者工作特征曲线下面积(AUC)分别达到0.973和0.997。其轻量级变体在保持高精度的同时,推理时间仅为14毫秒,满足了实时安全响应的需求。研究团队对机器人总制动距离的分析进一步验证了该方法的实用价值。
这项研究发表于《精准农业》期刊(2026年第27卷第3期,第74页),论文提交于2026年6月23日。VMTAD的开创性工作为无监督学习在农业机器人安全领域的应用开辟了新道路,有望显著提升自主作业的可靠性,推动精准农业的进一步智能化。