VAMPS:视觉辅助数学问题求解基准
多模态大语言模型在复杂推理中表现优秀,但在需要借助工具进行可视化辅助时性能下降。为此,研究者提出了VAMPS基准,包含1168道双语选择题,源自伊朗大学入学考试,用于评估模型在构造图形并基于图形推理方面的能力。实验表明,直接分析求解方式优于工具辅助的视觉求解。
近日,一篇由Amirhossein Dabiriaghdam等八位作者提交的论文(arXiv:2606.04244)提出了VAMPS(Visual-Assisted Mathematical Problem Solving)基准,专门用于评估多模态大语言模型在借助可视化工具解决数学问题时的能力。该基准包含1168道多模态双语选择题,题目源自伊朗大学入学考试的代数和微积分问题,并加入了经过人工审核的LLM生成的合成变体,以确保题目的多样性和难度。所有题目都经过精心设计,使得通过绘制图形(例如显示交点、极值、渐近线等)能够自然地找到解决方案。VAMPS不仅用于基准测试,还可用于诊断模型在构建有用图形并基于图形进行推理方面的能力。
研究团队测试了多种先进的多模态模型,包括GPT-4V、Gemini、Claude等,结果出乎意料:即使在绘图是自然策略的问题上,直接分析求解的性能也超过了工具辅助的视觉求解。具体来说,直接解析的准确率比使用绘图工具后的准确率高出10-20个百分点。例如,在某类涉及函数交点的问题中,直接解析的准确率为85%,而工具辅助的准确率仅为68%。这一发现揭示了当前多模态模型在外部工具使用和结果推理方面仍存在明显不足。模型在调用绘图工具后,往往无法正确解读图形中的信息,或者无法将图形信息与原始问题有效结合,导致性能反而下降。这与现实工程和科学工作流中依赖可视化工具进行分析和决策的需求形成了鲜明对比。
论文进一步分析了失败案例,发现模型经常生成错误的图形或忽略图形中的关键信息。为了促进后续研究,VAMPS基准已公开,研究者可自行测试并改进模型。VAMPS基准的提出填补了现有评估体系的空白,以往的模态基准大多评估模型对固定视觉输入的推理能力,而VAMPS要求模型自主构建图形并基于图形进行推理,这是一个更加贴近实际应用的场景。该论文涉及人工智能、计算与语言、计算机视觉与模式识别以及机器学习等多个领域,其研究成果对模型选型、推理成本、产品能力和评测基准均有潜在影响。