AI News HubLIVE
站内改写2 分钟阅读

引入OlmoEarth嵌入:从OlmoEarth Studio导出自定义嵌入用于下游分析

OlmoEarth Studio现在允许用户从OlmoEarth基础模型计算并导出嵌入向量,这些向量可用于相似性搜索、少样本分割、变化检测和无监督探索。导出格式为Cloud-Optimized GeoTIFF,支持多种参数配置。

来源Ai2 Blog

OlmoEarth Studio是Ai2构建的地球观测模型平台,现已推出嵌入导出功能。用户可以通过该平台计算并导出由开源OlmoEarth基础模型生成的嵌入向量——这些紧凑的数字表示能够高效捕捉地球观测数据中的特征。相关源代码和模型权重已随研究论文公开发布,社区可以完全审查嵌入的生成过程。

嵌入是快速、经济利用OlmoEarth的入口:它们支持从相似性搜索到分割再到无监督探索的多种下游任务。地表特征相似的区域会产生相近的向量,差异大的区域则相距甚远。OlmoEarth嵌入在内部基准测试和独立评估中均表现出色。导出的Cloud-Optimized GeoTIFF(COG)轻量且易于共享。用户可通过Studio界面或API选择感兴趣区域、时间范围、编码器变体、空间分辨率和影像源,即可获得可自由使用的COG文件。如果需要更高性能,Studio还支持监督微调(SFT)。

自定义嵌入现已面向OlmoEarth Studio用户开放。计算嵌入的流程与Studio中其他预测任务相同:首先配置模型并运行,然后下载结果。可调整的参数包括:感兴趣区域(可绘制或上传多边形)、时间跨度(1-12个月)、编码器变体(Nano 128维1.4M参数、Tiny 192维6.2M参数、Base 768维89M参数)、空间分辨率(10米、20米、40米或80米每像素)以及影像源(Sentinel-2 L2A、Sentinel-1 RTC或两者)。Studio输出一个COG,每个嵌入维度对应一个波段,向量以8位有符号整数存储,范围-127到+127,-128保留为nodata。恢复浮点向量可使用olmoearth_pretrain中的dequantize_embeddings函数。

由于所有计算均按需完成,而非从预计算全局存档拉取,因此嵌入能精确反映用户关注的特定条件。例如,可以生成月度嵌入以捕捉季节动态,而非仅限年度快照。

应用示例

以下是使用OlmoEarth-v1-Tiny(192维)嵌入、40米分辨率、Sentinel-2 L2A年度合成的示例(变化检测使用月度合成)。

  • 相似性搜索:选取查询像素,提取其嵌入,计算与所有其他像素的余弦相似度,生成热力图。例如,加州默塞德市中心附近的查询点能清晰识别出城市纹理和道路走廊。
  • 少样本分割:利用少量标注像素训练线性分类器,生成全覆盖土地覆盖图。在越南金瓯海岸红树林区域,仅用60个标注像素(每类20个)即可训练逻辑回归,加权F1得分达到0.84,且增加标注量对精度提升有限。
  • 变化检测:通过比较两个时间点的嵌入,直接识别地表变化。例如,2023年9月与2024年9月加州布特县帕克火灾的烧伤痕迹清晰可见。
  • 无监督探索:对嵌入进行PCA降维并映射为RGB图像,可自动揭示景观结构,无需任何标签。荷兰弗莱福兰的圩田景观中,不同作物类型、水体、城市区域自动获得不同色调。

所有分析仅需少量Python代码,如使用rasterio读取COG,结合scikit-learn进行线性探测。

局限性与进一步信息

尽管嵌入性能优异,但用户仍需针对自身用例验证质量。输入影像的质量(如云覆盖、大气影响)也会影响结果。如需更高性能,建议使用Studio的监督微调功能。

自定义嵌入导出现已可用。用户可创建项目、配置嵌入模型并计算。导出的GeoTIFF兼容QGIS、GDAL、rasterio等工具。完整代码示例参见嵌入教程和Colab笔记本。