聚類引導的領域特定預訓練基礎模型用於超高分辨率北極遙感
本研究提出了一種面向北極的超高分辨率遙感基礎模型,通過多樣性感知的區域圖像篩選和掩碼自編碼器(MAE)自監督預訓練,在Vision Transformer(ViT)上取得了顯著改進。模型在四個北極數據集上相比ImageNet基線提升了5-8%的F1分數,並超越了通用地球觀測基礎模型Prithvi-EO-2.0,凸顯了領域特定預訓練的重要性。
近日,一篇發表在arXiv上的論文(編號2605.30467)提出了一種創新的北極遙感基礎模型(RSFM),該模型結合了多樣性感知的區域圖像篩選與掩碼自編碼器(MAE)自監督預訓練,專為超高空間分辨率(VHSR)衞星圖像分析設計。研究團隊來自Amal S. Perera等人,論文於2026年5月28日提交。
該研究的核心創新在於其圖像篩選策略。研究人員利用光譜和採集元數據描述符,通過可擴展的親和傳播聚類工作流,從267 TB的Vantor超高分辨率圖像中精選出約300萬塊圖像芯片。這一策略旨在減少視覺重複或低信息區域的過採樣,同時保留研究區域廣泛的場景多樣性。這種精心篩選的數據集為後續預訓練提供了高質量、多樣化的訓練樣本。
在預訓練階段,團隊使用領域適應的MAE重構目標對ViT-Large編碼器進行訓練,生成了北極專屬的Transformer權重。這些權重隨後被集成到一個現有的位置感知檢測與分割框架中,用於下游的特徵映射任務。評估工作在四個手工標註的北極數據集上進行:基礎設施、冰水相(IWP)、道路與地形(RTS)以及熱岩溶地貌(TCNs)。
實驗結果令人矚目。與ImageNet初始化的ViT-Large基線相比,北極MAE預訓練在所有任務上均有一致提升,前景平均F1分數分別達到0.87、0.72、0.93和0.87,增幅約為5-8個百分點。更值得注意的是,該模型在所有下游比較中均優於通用地球觀測基礎模型Prithvi-EO-2.0,最小增益至少為平均F1的15個百分點。這表明,在精心篩選的北極VHSR圖像上進行領域特定自監督預訓練,能夠為精細尺度的北極製圖提供比通用模型更具遷移性的表示。
這些結果強有力地證明,通過優化區域尺度的預訓練數據分佈,同時保持架構和MAE目標不變,可以產生一個可重用的北極領域編碼器,適用於多種VHSR遙感應用。該研究為未來極地遙感模型的開發提供了重要思路,強調了領域特定預訓練在應對北極獨特環境挑戰中的關鍵作用。論文的更多細節包括計算機視覺與模式識別(cs.CV)主題分類,以及ACM類別I.2.10,並已通過arXiv發佈,DOI正在註冊中。