Plan2Map:基于规划文档的多模态地理空间边界重建基准
Plan2Map是一个包含208个案例的多模态基准,用于从英国规划记录中重建地理空间边界。研究人员提出了GeoPlanAgent系统,通过证据提取、定位、地图配准、边界分割、投影和验证等步骤,在基准上实现了0.736的平均IoU和0.904的中位IoU,显著优于直接VLM方法。
来源arXiv Computer Vision作者: Fabian Degen, Oishi Deb, Jindong Gu, Junchi Yu, Samuele Marro, Philip Torr, Jialin Yu
规划记录定义了地理区域的限制,但其源文档通常仅提供间接的空间证据,而非机器可读的边界。针对这一问题,研究人员推出了Plan2Map——一个包含208个案例的多模态基准,专门用于从英国规划记录中重建地理空间边界。该基准要求系统仅根据源规划文档(包括通知文本、时间表、地图图版、地图标签和边界注释)重建有效的边界,而参考GeoJSON被保留用于评分。
为了应对这一挑战,研究团队提出了GeoPlanAgent系统。该系统采用文档驱动的地理空间工具循环架构,将任务分解为证据提取、定位、地图配准、边界分割、投影和验证六个步骤。在Plan2Map上的测试表明,GeoPlanAgent的平均IoU达到0.736,中位IoU高达0.904,其中67.8%的预测结果IoU不低于0.8,大幅超越了直接的VLM-to-GeoJSON基线方法。
诊断分析显示,直接的VLM预测仍然不可靠,而残余误差主要集中在定位和地图配准环节。此外,监督边界分割显著提升了像素级掩膜质量。Plan2Map为基于公共规划记录的多模态地理空间重建提供了一个具体的测试平台,相关项目页面已公开。