2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

聚類引導的領域特定預訓練基礎模型用於超高解析度北極遙感

本研究提出了一種面向北極的超高解析度遙感基礎模型，透過多樣性感知的區域影像篩選和掩碼自編碼器（MAE）自監督預訓練，在Vision Transformer（ViT）上取得了顯著改進。模型在四個北極資料集上相比ImageNet基線提升了5-8%的F1分數，並超越了通用地球觀測基礎模型Prithvi-EO-2.0，凸顯了領域特定預訓練的重要性。

來源arXiv Computer Vision作者: Amal S. Perera, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl

近日，一篇發表在arXiv上的論文（編號2605.30467）提出了一種創新的北極遙感基礎模型（RSFM），該模型結合了多樣性感知的區域影像篩選與掩碼自編碼器（MAE）自監督預訓練，專為超高空間解析度（VHSR）衛星影像分析設計。研究團隊來自Amal S. Perera等人，論文於2026年5月28日提交。

該研究的核心創新在於其影像篩選策略。研究人員利用光譜和採集後設資料描述符，透過可擴充套件的親和傳播聚類工作流，從267 TB的Vantor超高解析度影像中精選出約300萬塊影像晶片。這一策略旨在減少視覺重複或低資訊區域的過取樣，同時保留研究區域廣泛的場景多樣性。這種精心篩選的資料集為後續預訓練提供了高質量、多樣化的訓練樣本。

在預訓練階段，團隊使用領域適應的MAE重構目標對ViT-Large編碼器進行訓練，生成了北極專屬的Transformer權重。這些權重隨後被整合到一個現有的位置感知檢測與分割框架中，用於下游的特徵對映任務。評估工作在四個手工標註的北極資料集上進行：基礎設施、冰水相（IWP）、道路與地形（RTS）以及熱岩溶地貌（TCNs）。

實驗結果令人矚目。與ImageNet初始化的ViT-Large基線相比，北極MAE預訓練在所有任務上均有一致提升，前景平均F1分數分別達到0.87、0.72、0.93和0.87，增幅約為5-8個百分點。更值得注意的是，該模型在所有下游比較中均優於通用地球觀測基礎模型Prithvi-EO-2.0，最小增益至少為平均F1的15個百分點。這表明，在精心篩選的北極VHSR影像上進行領域特定自監督預訓練，能夠為精細尺度的北極製圖提供比通用模型更具遷移性的表示。

這些結果強有力地證明，透過最佳化區域尺度的預訓練資料分佈，同時保持架構和MAE目標不變，可以產生一個可重用的北極領域編碼器，適用於多種VHSR遙感應用。該研究為未來極地遙感模型的開發提供了重要思路，強調了領域特定預訓練在應對北極獨特環境挑戰中的關鍵作用。論文的更多細節包括計算機視覺與模式識別（cs.CV）主題分類，以及ACM類別I.2.10，並已透過arXiv釋出，DOI正在註冊中。