AI News HubLIVE
站内改写2 分鐘閱讀

聚類引導的領域特定預訓練基礎模型用於超高解析度北極遙感

本研究提出了一種面向北極的超高解析度遙感基礎模型,透過多樣性感知的區域影像篩選和掩碼自編碼器(MAE)自監督預訓練,在Vision Transformer(ViT)上取得了顯著改進。模型在四個北極資料集上相比ImageNet基線提升了5-8%的F1分數,並超越了通用地球觀測基礎模型Prithvi-EO-2.0,凸顯了領域特定預訓練的重要性。

來源arXiv Computer Vision作者: Amal S. Perera, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl

近日,一篇發表在arXiv上的論文(編號2605.30467)提出了一種創新的北極遙感基礎模型(RSFM),該模型結合了多樣性感知的區域影像篩選與掩碼自編碼器(MAE)自監督預訓練,專為超高空間解析度(VHSR)衛星影像分析設計。研究團隊來自Amal S. Perera等人,論文於2026年5月28日提交。

該研究的核心創新在於其影像篩選策略。研究人員利用光譜和採集後設資料描述符,透過可擴充套件的親和傳播聚類工作流,從267 TB的Vantor超高解析度影像中精選出約300萬塊影像晶片。這一策略旨在減少視覺重複或低資訊區域的過取樣,同時保留研究區域廣泛的場景多樣性。這種精心篩選的資料集為後續預訓練提供了高質量、多樣化的訓練樣本。

在預訓練階段,團隊使用領域適應的MAE重構目標對ViT-Large編碼器進行訓練,生成了北極專屬的Transformer權重。這些權重隨後被整合到一個現有的位置感知檢測與分割框架中,用於下游的特徵對映任務。評估工作在四個手工標註的北極資料集上進行:基礎設施、冰水相(IWP)、道路與地形(RTS)以及熱岩溶地貌(TCNs)。

實驗結果令人矚目。與ImageNet初始化的ViT-Large基線相比,北極MAE預訓練在所有任務上均有一致提升,前景平均F1分數分別達到0.87、0.72、0.93和0.87,增幅約為5-8個百分點。更值得注意的是,該模型在所有下游比較中均優於通用地球觀測基礎模型Prithvi-EO-2.0,最小增益至少為平均F1的15個百分點。這表明,在精心篩選的北極VHSR影像上進行領域特定自監督預訓練,能夠為精細尺度的北極製圖提供比通用模型更具遷移性的表示。

這些結果強有力地證明,透過最佳化區域尺度的預訓練資料分佈,同時保持架構和MAE目標不變,可以產生一個可重用的北極領域編碼器,適用於多種VHSR遙感應用。該研究為未來極地遙感模型的開發提供了重要思路,強調了領域特定預訓練在應對北極獨特環境挑戰中的關鍵作用。論文的更多細節包括計算機視覺與模式識別(cs.CV)主題分類,以及ACM類別I.2.10,並已透過arXiv釋出,DOI正在註冊中。