迷失在尾部:解决城市视觉地点识别中的地理不平衡问题
城市级视觉地点识别(VPR)旨在通过将查询图像与地理标记数据库匹配来确定其地理位置。然而,现有方法忽略了城市数据集中存在的严重长尾问题,导致模型偏向图像丰富的区域,而忽视稀疏覆盖区域。本文系统性地描述了这一不平衡挑战,并提出了分布感知地点识别(DAPR)框架,这是一种与模型无关的即插即用框架,能够重新平衡头部和尾部类别的梯度贡献。在分类-检索流水线中,DAPR应用多尺度距离搜索机制来计算每类分布的紧凑性,在检索阶段提供补充增益。在SF-XL基准上,该框架在测试集v1和v2上分别比之前的分类-检索基线提升了18.3%和6.7%。作为即插即用模块,它在SF-XL、MSLS和Pitts30k上的代表性VPR方法中均取得了一致的改进。
城市级视觉地点识别(VPR)是计算机视觉领域的一项重要任务,其目标是通过将查询图像与地理标记数据库进行匹配来确定该图像的地理位置。尽管近年来提出的方法取得了令人瞩目的性能,但它们普遍忽视了一个隐藏在大型城市数据集中的关键问题:严重的长期尾部分布问题。这种不平衡导致模型偏向于那些拥有丰富图像样本的地点(头部数据),而忽略了那些拍摄较少的区域(尾部数据),从而系统性地偏向于频繁被拍摄的地点,却在稀疏覆盖区域表现不佳。
针对这一挑战,来自研究团队(Zhiyao Shu等四位作者)的系统性地描述了城市VPR中的地理不平衡问题,并提出了分布感知地点识别方法(Distribution-Aware Place Recognition, DAPR)。DAPR是一种与模型无关的即插即用框架,专门设计用于重新平衡分类任务中头部和尾部类别对梯度更新的贡献。通过减弱头部类别的主导影响、增强尾部类别的学习信号,模型能够更加公平地对待所有地理位置。
进一步地,DAPR在分类-检索联合流水线中集成了一个多尺度距离搜索机制。该机制在检索阶段计算每个类别的分布紧凑性,利用不同尺度下的空间信息来提升检索精度。这一创新性设计不仅解决了类别不平衡问题,还能与现有VPR方法无缝集成,带来额外的性能增益。
实验结果表明,DAPR在大型基准数据集SF-XL上表现卓越。在测试集v1上,它超越了先前的分类-检索基线18.3%;在测试集v2上,提升幅度达到6.7%。更重要的是,作为一个即插即用模块,DAPR在多个代表性VPR方法(如SF-XL、MSLS和Pitts30k)上均展现出一致的性能改进,证明了其广泛的通用性和跨数据集的稳健性。
这项研究已被欧洲计算机视觉会议(ECCV 2026)接收。论文提供了28页的详细内容,包括额外的补充材料。研究不仅揭示了城市VPR中一个被忽视的关键问题,还提出了一个实用且高效的解决方案,有望推动未来地理空间人工智能应用的公平性和鲁棒性。