2026-07-02 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-02 16:19 UTC+8

PixelEyes: 解耦感知与推理实现精准视觉证据搜索

本文提出PixelEyes，一种多轮视觉推理代理，通过解耦推理与感知来解决多模态大模型在目标定位中反复失败的问题。引入掩码引导视觉搜索和语义区域广度优先搜索，构建PixelEyes-6K数据集和Pinpoint-Bench基准，实验表明现有模型仍有较大提升空间。

来源arXiv Computer Vision作者: Dengxian Gong, Yuanzheng Wu, Haobo Yuan, Zhengdong Hu, Tao Zhang, Yikang Zhou, Shihao Chen, Quanzhu Niu, Kai Wang, Jason Li, Haochen Wang, Lu Qi, Shunping Ji, Ming-Hsuan Yang

近年来，多模态大语言模型（MLLMs）在多轮视觉推理任务中展现出强大的能力，但研究人员发现，它们常常在目标定位环节反复失败，导致产生冗长的推理轨迹。这一问题的根源在于推理与感知在单一模型中的纠缠：模型同时进行推理和定位，而不准确的定位又会触发额外的推理步骤，使轨迹不断膨胀，效率低下。

为了从根本上解决这一困境，来自多家机构的研究团队提出了PixelEyes——一个创新的多轮视觉推理代理，明确地将推理与感知解耦。在PixelEyes中，推理器负责决定“寻找什么”，而专门的感知工具回答“在哪里”。这种分工避免了定位错误对推理的干扰。具体来说，PixelEyes引入了两项关键技术：掩码引导视觉搜索和语义区域广度优先搜索（BFS）。掩码引导视觉搜索调用指代分割模型，提供像素级精确的定位掩码，使推理器无需再补偿不精确的定位结果。语义区域广度优先搜索则将探索过程组织为对语义区域的广度优先搜索，从而消除因重复裁剪错误子区域而产生的冗余循环。

为了使模型内化这些能力，团队构建了PixelEyes-6K数据集。该数据集通过从现有数据中重新合成专家轨迹，显式地将掩码引导搜索和广度优先搜索逻辑嵌入模型。此外，他们还推出了Pinpoint-Bench，一个零提示视觉搜索基准，即问题中不提供任何位置线索。该基准配备了实例级掩码和边界框，能够将定位失败与推理失败分开，从而实现对诸如“不注意视盲”等失败模式的细粒度分析。

实验结果显示，当前最先进的多模态大语言模型和视觉推理代理在Pinpoint-Bench上仍有很大的提升空间，这充分证明了该基准的质量和难度。研究团队已开源相关代码和模型，为推动视觉推理领域的发展提供了有力工具。PixelEyes的提出不仅为多轮视觉推理中的定位问题提供了一种高效解决方案，也为未来研究如何更好地解耦感知与推理提供了新的思路。这项工作的意义在于，它揭示了当前MLLMs在视觉推理中的根本性局限，并提供了一个可复现的框架来弥补这一缺陷，有望推动更可靠、更高效的视觉代理系统的开发。