PixelEyes: 解耦感知與推理實現精準視覺證據搜索
本文提出PixelEyes,一種多輪視覺推理代理,通過解耦推理與感知來解決多模態大模型在目標定位中反覆失敗的問題。引入掩碼引導視覺搜索和語義區域廣度優先搜索,構建PixelEyes-6K數據集和Pinpoint-Bench基準,實驗表明現有模型仍有較大提升空間。
近年來,多模態大語言模型(MLLMs)在多輪視覺推理任務中展現出強大的能力,但研究人員發現,它們常常在目標定位環節反覆失敗,導致產生冗長的推理軌跡。這一問題的根源在於推理與感知在單一模型中的糾纏:模型同時進行推理和定位,而不準確的定位又會觸發額外的推理步驟,使軌跡不斷膨脹,效率低下。
為了從根本上解決這一困境,來自多家機構的研究團隊提出了PixelEyes——一個創新的多輪視覺推理代理,明確地將推理與感知解耦。在PixelEyes中,推理器負責決定“尋找什麼”,而專門的感知工具回答“在哪裏”。這種分工避免了定位錯誤對推理的干擾。具體來説,PixelEyes引入了兩項關鍵技術:掩碼引導視覺搜索和語義區域廣度優先搜索(BFS)。掩碼引導視覺搜索調用指代分割模型,提供像素級精確的定位掩碼,使推理器無需再補償不精確的定位結果。語義區域廣度優先搜索則將探索過程組織為對語義區域的廣度優先搜索,從而消除因重複裁剪錯誤子區域而產生的冗餘循環。
為了使模型內化這些能力,團隊構建了PixelEyes-6K數據集。該數據集通過從現有數據中重新合成專家軌跡,顯式地將掩碼引導搜索和廣度優先搜索邏輯嵌入模型。此外,他們還推出了Pinpoint-Bench,一個零提示視覺搜索基準,即問題中不提供任何位置線索。該基準配備了實例級掩碼和邊界框,能夠將定位失敗與推理失敗分開,從而實現對諸如“不注意視盲”等失敗模式的細粒度分析。
實驗結果顯示,當前最先進的多模態大語言模型和視覺推理代理在Pinpoint-Bench上仍有很大的提升空間,這充分證明了該基準的質量和難度。研究團隊已開源相關代碼和模型,為推動視覺推理領域的發展提供了有力工具。PixelEyes的提出不僅為多輪視覺推理中的定位問題提供了一種高效解決方案,也為未來研究如何更好地解耦感知與推理提供了新的思路。這項工作的意義在於,它揭示了當前MLLMs在視覺推理中的根本性侷限,並提供了一個可復現的框架來彌補這一缺陷,有望推動更可靠、更高效的視覺代理系統的開發。