GeoDrive-Bench:自动驾驶中区域特定多模态推理的基准测试
GeoDrive-Bench是一个新的基准测试,用于评估视觉语言模型在不同地区交通规则下的自动驾驶推理能力。它包含来自六个国家的5053个经过人工验证的多选题,涵盖感知、预测、规划和区域推理四个任务。此外,论文提出了一种蒸馏算法,将区域特定的交通规则知识注入模型内部表征,实验表明当前VLM缺乏稳健的区域感知智能,而基线方法展现了改进的跨区域推理能力。
近日,一项名为GeoDrive-Bench的新基准测试由研究团队提出,用于系统评估视觉语言模型(VLM)在自动驾驶中处理区域特定交通规则的能力。当前VLM在通用驾驶场景中表现优异,但其对全球不同地区交通惯例的适应性尚未得到充分探索,这为实际部署带来了不确定性。
GeoDrive-Bench精心收集了来自美国、中国、德国、印度、日本和巴西六个国家的5053个经过人类验证的多选题,这些题目覆盖了不同的驾驶文化。基准测试强调四个关键驾驶任务:感知、预测、规划和区域推理。每个问题要求模型仅根据视觉证据和当地交通惯例推断正确的驾驶行为,而不提供明确的国家标签。这种设计能够有效检验模型对区域交通规则的真实理解能力,避免了模型通过记忆国家标签来猜测答案的偏差。
除了评估,研究团队还设计了一种蒸馏算法,将区域特定的交通规则知识注入VLM的内部表征。该方法通过一个教师模型将区域规则编码为嵌入向量,然后指导学生模型在训练过程中将视觉特征与这些嵌入对齐。这样,模型能够更好地将视觉场景理解与当地驾驶政策对齐,从而提升推理准确性,尤其是在面对未见过的地区场景时。
实验涉及九个最先进的VLM,包括多种架构和训练策略的模型。结果显示,不同模型在不同地区驾驶文化中表现差异显著,例如某些模型在美国场景中表现良好,但在印度或日本场景中准确率大幅下降。而应用蒸馏算法后的基线模型在所有区域均展现出更优的地理文化推理能力,平均准确率提升了12%至18%。这些结果表明,当前VLM仍缺乏稳健的区域感知驾驶智能,而GeoDrive-Bench不仅是一个诊断工具,更是一个面向训练的测试平台,有望推动可部署的自动驾驶基础模型的发展。研究人员认为,未来VLM需要更深入地整合地理文化知识,才能实现真正的全球自适应自动驾驶。该工作为自动驾驶领域的跨区域泛化研究提供了重要基准和方法论参考。