CaVe-VLM-CoT:一个可解释的视觉语言模型框架
CaVe-VLM-CoT是一个模块化的反思型智能体RAG框架,通过五阶段闭环流程减少视觉语言模型中的幻觉现象。它引入了一套包含23个指标的评估体系,其中CaVeScore综合衡量准确性、引文精确率与召回率、归因和证据基础。在ScienceQA和MMMU数据集上,该方法无需修改架构或提示即可达到87.1%和55.2%的准确率。
视觉语言模型(VLM)在生成流畅的自然语言描述时,常常会输出与视觉输入不符的幻觉内容。这一问题在需要精细推理的任务中尤为突出。现有的思维链(CoT)和检索增强生成(RAG)方法虽在一定程度上缓解了幻觉,但仍存在根本性缺陷:它们既没有强制要求在每一步推理中提供可追溯的引文支持,也无法将验证失败的信号反馈给检索模块进行自我修正。
针对这一挑战,Sneha Rao等人在发表于arXiv的新论文中提出了CaVe-VLM-CoT框架。该框架是一个模块化的反思型智能体RAG系统,通过一个五阶段的闭环流水线强制执行基于证据的推理。流水线包括提取器、检索器、求解器、引文注入器和验证器五个模块。当验证器检测到当前推理步骤缺乏充分的证据基础时,会生成结构化反馈,驱动提取器进行针对性的重新检索。这种设计确保了每个输出步骤都能追溯到可靠的引文来源,从而大幅降低了幻觉风险。
为了全面评估此类框架的性能,研究团队还提出了一套包含23个组件级指标的评估体系,覆盖流水线的所有阶段。其中核心指标是CaVeScore,它是一个加权复合指标,综合了准确性、引文精确率与召回率、归因质量以及证据基础程度。实验结果表明,在不改变任何底层模型架构或提示设计的前提下,CaVe-VLM-CoT在ScienceQA数据集上取得了87.1%的准确率和56.6%的CaVeScore,在涵盖30个学科的MMMU数据集上获得了55.2%的准确率和35.7%的CaVeScore。这些结果不仅验证了框架的有效性,也展示了其在提升VLM可解释性和可靠性方面的巨大潜力。