2026-06-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

聚类引导的领域特定预训练基础模型用于超高分辨率北极遥感

本研究提出了一种面向北极的超高分辨率遥感基础模型，通过多样性感知的区域图像筛选和掩码自编码器（MAE）自监督预训练，在Vision Transformer（ViT）上取得了显著改进。模型在四个北极数据集上相比ImageNet基线提升了5-8%的F1分数，并超越了通用地球观测基础模型Prithvi-EO-2.0，凸显了领域特定预训练的重要性。

来源arXiv Computer Vision作者: Amal S. Perera, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl

近日，一篇发表在arXiv上的论文（编号2605.30467）提出了一种创新的北极遥感基础模型（RSFM），该模型结合了多样性感知的区域图像筛选与掩码自编码器（MAE）自监督预训练，专为超高空间分辨率（VHSR）卫星图像分析设计。研究团队来自Amal S. Perera等人，论文于2026年5月28日提交。

该研究的核心创新在于其图像筛选策略。研究人员利用光谱和采集元数据描述符，通过可扩展的亲和传播聚类工作流，从267 TB的Vantor超高分辨率图像中精选出约300万块图像芯片。这一策略旨在减少视觉重复或低信息区域的过采样，同时保留研究区域广泛的场景多样性。这种精心筛选的数据集为后续预训练提供了高质量、多样化的训练样本。

在预训练阶段，团队使用领域适应的MAE重构目标对ViT-Large编码器进行训练，生成了北极专属的Transformer权重。这些权重随后被集成到一个现有的位置感知检测与分割框架中，用于下游的特征映射任务。评估工作在四个手工标注的北极数据集上进行：基础设施、冰水相（IWP）、道路与地形（RTS）以及热岩溶地貌（TCNs）。

实验结果令人瞩目。与ImageNet初始化的ViT-Large基线相比，北极MAE预训练在所有任务上均有一致提升，前景平均F1分数分别达到0.87、0.72、0.93和0.87，增幅约为5-8个百分点。更值得注意的是，该模型在所有下游比较中均优于通用地球观测基础模型Prithvi-EO-2.0，最小增益至少为平均F1的15个百分点。这表明，在精心筛选的北极VHSR图像上进行领域特定自监督预训练，能够为精细尺度的北极制图提供比通用模型更具迁移性的表示。

这些结果强有力地证明，通过优化区域尺度的预训练数据分布，同时保持架构和MAE目标不变，可以产生一个可重用的北极领域编码器，适用于多种VHSR遥感应用。该研究为未来极地遥感模型的开发提供了重要思路，强调了领域特定预训练在应对北极独特环境挑战中的关键作用。论文的更多细节包括计算机视觉与模式识别（cs.CV）主题分类，以及ACM类别I.2.10，并已通过arXiv发布，DOI正在注册中。