2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

模态内邻居永不撒谎：通过基于图的模态内推理纠正跨模态噪声对应

本文提出一种名为IN2R的新框架，通过从离散选择转向合成连续软原型来纠正跨模态检索中的噪声对应问题，利用模态内数据的几何稳定性进行图推理，在多个数据集上达到最优性能。

来源arXiv Computer Vision作者: Yang Liu, Wentao Feng, Shu-Dong Huang, Yalan Ye, Jiancheng Lv

大规模网络收集的数据集推动了跨模态检索的进步，但也不可避免地引入噪声对应问题，严重损害模型泛化能力。现有方法主要通过过滤噪声或寻找替代标签来解决，但仍局限于“离散选择”范式。本文指出，依赖单一离散代理会导致“单点脆弱性”和“离散化误差”。为克服这些局限，研究团队提出了IN2R（模态内邻居感知噪声纠正）框架，将范式从寻找替代转向合成可靠的监督目标。

IN2R利用模态内数据固有的几何稳定性，采用图精炼器对从动态跨模型记忆中检索的邻居进行关系推理。与传播离散标签不同，该方法合成连续、软的原型，反映局部语义邻域的共识，有效纠正跨模态错位。实验表明，在Flickr30K、MS-COCO和CC152K数据集上，IN2R显著优于现有最先进方法。代码和预训练模型已公开在GitHub上。该工作已被ICML 2026接收，为跨模态检索中的噪声对应问题提供了新的解决思路。