聚类引导的领域特定预训练基础模型用于超高分辨率北极遥感
本研究提出了一种面向北极的超高分辨率遥感基础模型,通过多样性感知的区域图像筛选和掩码自编码器(MAE)自监督预训练,在Vision Transformer(ViT)上取得了显著改进。模型在四个北极数据集上相比ImageNet基线提升了5-8%的F1分数,并超越了通用地球观测基础模型Prithvi-EO-2.0,凸显了领域特定预训练的重要性。
近日,一篇发表在arXiv上的论文(编号2605.30467)提出了一种创新的北极遥感基础模型(RSFM),该模型结合了多样性感知的区域图像筛选与掩码自编码器(MAE)自监督预训练,专为超高空间分辨率(VHSR)卫星图像分析设计。研究团队来自Amal S. Perera等人,论文于2026年5月28日提交。
该研究的核心创新在于其图像筛选策略。研究人员利用光谱和采集元数据描述符,通过可扩展的亲和传播聚类工作流,从267 TB的Vantor超高分辨率图像中精选出约300万块图像芯片。这一策略旨在减少视觉重复或低信息区域的过采样,同时保留研究区域广泛的场景多样性。这种精心筛选的数据集为后续预训练提供了高质量、多样化的训练样本。
在预训练阶段,团队使用领域适应的MAE重构目标对ViT-Large编码器进行训练,生成了北极专属的Transformer权重。这些权重随后被集成到一个现有的位置感知检测与分割框架中,用于下游的特征映射任务。评估工作在四个手工标注的北极数据集上进行:基础设施、冰水相(IWP)、道路与地形(RTS)以及热岩溶地貌(TCNs)。
实验结果令人瞩目。与ImageNet初始化的ViT-Large基线相比,北极MAE预训练在所有任务上均有一致提升,前景平均F1分数分别达到0.87、0.72、0.93和0.87,增幅约为5-8个百分点。更值得注意的是,该模型在所有下游比较中均优于通用地球观测基础模型Prithvi-EO-2.0,最小增益至少为平均F1的15个百分点。这表明,在精心筛选的北极VHSR图像上进行领域特定自监督预训练,能够为精细尺度的北极制图提供比通用模型更具迁移性的表示。
这些结果强有力地证明,通过优化区域尺度的预训练数据分布,同时保持架构和MAE目标不变,可以产生一个可重用的北极领域编码器,适用于多种VHSR遥感应用。该研究为未来极地遥感模型的开发提供了重要思路,强调了领域特定预训练在应对北极独特环境挑战中的关键作用。论文的更多细节包括计算机视觉与模式识别(cs.CV)主题分类,以及ACM类别I.2.10,并已通过arXiv发布,DOI正在注册中。