Plan2Map:基於規劃文檔的多模態地理空間邊界重建基準
Plan2Map是一個包含208個案例的多模態基準,用於從英國規劃記錄中重建地理空間邊界。研究人員提出了GeoPlanAgent系統,通過證據提取、定位、地圖配準、邊界分割、投影和驗證等步驟,在基準上實現了0.736的平均IoU和0.904的中位IoU,顯著優於直接VLM方法。
來源arXiv Computer Vision作者: Fabian Degen, Oishi Deb, Jindong Gu, Junchi Yu, Samuele Marro, Philip Torr, Jialin Yu
規劃記錄定義了地理區域的限制,但其源文檔通常僅提供間接的空間證據,而非機器可讀的邊界。針對這一問題,研究人員推出了Plan2Map——一個包含208個案例的多模態基準,專門用於從英國規劃記錄中重建地理空間邊界。該基準要求系統僅根據源規劃文檔(包括通知文本、時間表、地圖圖版、地圖標籤和邊界註釋)重建有效的邊界,而參考GeoJSON被保留用於評分。
為了應對這一挑戰,研究團隊提出了GeoPlanAgent系統。該系統採用文檔驅動的地理空間工具循環架構,將任務分解為證據提取、定位、地圖配準、邊界分割、投影和驗證六個步驟。在Plan2Map上的測試表明,GeoPlanAgent的平均IoU達到0.736,中位IoU高達0.904,其中67.8%的預測結果IoU不低於0.8,大幅超越了直接的VLM-to-GeoJSON基線方法。
診斷分析顯示,直接的VLM預測仍然不可靠,而殘餘誤差主要集中在定位和地圖配準環節。此外,監督邊界分割顯著提升了像素級掩膜質量。Plan2Map為基於公共規劃記錄的多模態地理空間重建提供了一個具體的測試平台,相關項目頁面已公開。