2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Pinpoint：基于跨源检索与重排序的精确全球图像定位

Pinpoint是一种新的图像地理定位方法，通过结合互联网照片和街景图像，利用检索-重排序架构实现高精度定位。它训练对比学习嵌入器统一来自Flickr和街景的图像-GPS空间，再用注意力机制重排序候选位置。无需多模态大模型，在多个基准上达到最先进水平。

来源arXiv Computer Vision作者: Nika Chuzhoy, Brian Hu, Amit A. Arora, Jae Ro, Sarthak S. Sahu

图像地理定位（Image Geolocation）旨在从一张照片的视觉内容推断出其拍摄地点。在全球范围内，这一任务极具挑战性，因为视觉证据往往模糊、多样且分布不均。以往的工作通常将普通互联网照片和街景图像的定位视为两个独立的任务，忽略了它们各自的优势：互联网照片更贴近用户拍摄的查询图像的视觉分布，而街景图像则提供更密集、地理覆盖更全面的参考数据。

Pinpoint提出了一种检索-重排序（retrieve-and-rerank）架构，将两种数据源融合到一个由粗到精的流水线中。首先，训练一个对比学习图像-GPS嵌入器，同时使用Flickr用户上传的照片和街景图像，学习一个共享的图像-GPS嵌入空间，用于检索候选位置。这个嵌入器通过对比学习使得同一位置的不同图像在嵌入空间中靠近，而不同位置的图像远离。随后，一个基于注意力的重排序器登场：它结合候选位置的视觉和GPS特征，并利用附近位置的跨源证据（例如，附近街景图像与查询图像的相似性）来重新评分候选，从而确定最终预测。

与近期依赖多模态大语言模型（MLLM）的工作不同，Pinpoint完全基于视觉和GPS特征的检索与重排序，无需大模型参与。这不仅使推理速度更快，而且提高了结果的可重复性。实验表明，Pinpoint在互联网照片基准（IM2GPS3k和YFCC4k）以及街景图像基准（OSV-5M）上，在所有指标上均达到了最先进的水平。例如，在IM2GPS3k上，Pinpoint的定位精度显著优于此前的最佳方法。

该研究由Nika Chuzhoy等人完成，论文于2026年6月2日提交至arXiv（ID: 2606.04133），属于计算机视觉与模式识别领域。Pinpoint的成功表明，通过巧妙的数据融合和高效的检索架构，可以在不依赖大模型的情况下显著提升全球图像地理定位的性能。未来，这一方法有望在导航、考古、野生动物监测、社交媒体地理标记等众多领域发挥重要作用，为需要精确位置信息的应用提供有力支持。