GeoDisaster:面向操作式災害地理智能的編排智能體基準測試
GeoDisaster是一個新型操作式災害地理智能基準測試,包含2,921個實例、43種問題類型和五個任務族(森林退化監測、多災種分析、建築損壞評估、洪水安全路徑規劃、Sentinel-1 SAR洪水監測)。它整合了異構的EO/GIS數據,並使用可執行工作流生成真實答案。該論文還提出了一個包含18個災害工具的多智能體框架,以及角色-合約期望對齊(RCEA)方法,通過失敗感知的監督微調和合約驅動的強化學習來提升工具使用和決策質量。實驗表明,GeoDisaster對現有模型構成挑戰,而RCEA改善了工具使用、證據基礎和狀態一致性。
在災害響應中,地理空間情報的及時性和準確性至關重要。然而,現有的遙感視覺語言模型(RS-VLM)雖然在視覺解釋和指令遵循方面有所進步,但在需要基於工具的推理和結構化決策的操作式地理智能方面仍顯不足。為此,研究團隊推出了GeoDisaster——一個面向操作式災害地理智能的開放基準測試。
GeoDisaster包含2,921個經過驗證的實例,涵蓋43種問題類型和五個任務族:森林退化監測、多災種分析、建築損壞評估、洪水安全路徑規劃以及Sentinel-1 SAR洪水監測。每個實例整合了多種異構地球觀測與地理信息系統數據,包括光學和SAR圖像、柵格掩膜、矢量幾何、道路網絡和暴露圖層。這些數據覆蓋了災害檢測、損害評估、暴露估計和診斷報告生成等關鍵環節。為確保答案的可靠性,基準測試採用了可執行的地理空間工作流和確定性一致性檢查,從而避免了語言模型標註帶來的偏差。
除了基準測試本身,論文還提出了一個編排式多智能體框架,集成了18個面向災害的工具。在該框架中,角色專業化的智能體通過顯式的執行合約進行協調,並採用角色-合約期望對齊(RCEA)方法進行優化。RCEA結合了失敗感知的監督微調和合約驅動的強化學習,在密集的步驟級信號上進行訓練,從而提升了工具使用、證據基礎、狀態一致性和決策生成能力。
實驗結果顯示,GeoDisaster對現有的RS-VLM和智能體系統構成了顯著挑戰,而RCEA方法在各項目標上均帶來了改進。這一工作不僅為災害地理智能提供了標準化的評估平台,也為未來智能體系統的研究奠定了堅實基礎。該論文由Maram Hasan等八位作者完成,共28頁,包含11張圖表,於2026年6月15日提交至arXiv。論文主題涵蓋計算機視覺與模式識別(cs.CV)以及多智能體系統(cs.MA)。