VAMPS:視覺輔助數學問題求解基準
多模態大語言模型在複雜推理中表現優秀,但在需要藉助工具進行可視化輔助時性能下降。為此,研究者提出了VAMPS基準,包含1168道雙語選擇題,源自伊朗大學入學考試,用於評估模型在構造圖形並基於圖形推理方面的能力。實驗表明,直接分析求解方式優於工具輔助的視覺求解。
近日,一篇由Amirhossein Dabiriaghdam等八位作者提交的論文(arXiv:2606.04244)提出了VAMPS(Visual-Assisted Mathematical Problem Solving)基準,專門用於評估多模態大語言模型在藉助可視化工具解決數學問題時的能力。該基準包含1168道多模態雙語選擇題,題目源自伊朗大學入學考試的代數和微積分問題,並加入了經過人工審核的LLM生成的合成變體,以確保題目的多樣性和難度。所有題目都經過精心設計,使得通過繪製圖形(例如顯示交點、極值、漸近線等)能夠自然地找到解決方案。VAMPS不僅用於基準測試,還可用於診斷模型在構建有用圖形並基於圖形進行推理方面的能力。
研究團隊測試了多種先進的多模態模型,包括GPT-4V、Gemini、Claude等,結果出乎意料:即使在繪圖是自然策略的問題上,直接分析求解的性能也超過了工具輔助的視覺求解。具體來説,直接解析的準確率比使用繪圖工具後的準確率高出10-20個百分點。例如,在某類涉及函數交點的問題中,直接解析的準確率為85%,而工具輔助的準確率僅為68%。這一發現揭示了當前多模態模型在外部工具使用和結果推理方面仍存在明顯不足。模型在調用繪圖工具後,往往無法正確解讀圖形中的信息,或者無法將圖形信息與原始問題有效結合,導致性能反而下降。這與現實工程和科學工作流中依賴可視化工具進行分析和決策的需求形成了鮮明對比。
論文進一步分析了失敗案例,發現模型經常生成錯誤的圖形或忽略圖形中的關鍵信息。為了促進後續研究,VAMPS基準已公開,研究者可自行測試並改進模型。VAMPS基準的提出填補了現有評估體系的空白,以往的模態基準大多評估模型對固定視覺輸入的推理能力,而VAMPS要求模型自主構建圖形並基於圖形進行推理,這是一個更加貼近實際應用的場景。該論文涉及人工智能、計算與語言、計算機視覺與模式識別以及機器學習等多個領域,其研究成果對模型選型、推理成本、產品能力和評測基準均有潛在影響。