2026-06-18站内改写1 分钟阅读更新: 2026-06-18

CaVe-VLM-CoT：一个可解释的视觉语言模型框架

CaVe-VLM-CoT是一个模块化的反思型智能体RAG框架，通过五阶段闭环流程减少视觉语言模型中的幻觉现象。它引入了一套包含23个指标的评估体系，其中CaVeScore综合衡量准确性、引文精确率与召回率、归因和证据基础。在ScienceQA和MMMU数据集上，该方法无需修改架构或提示即可达到87.1%和55.2%的准确率。

来源arXiv AI作者: Sneha Rao, Shaina Raza, Dhanesh Ramachandram

视觉语言模型（VLM）在生成流畅的自然语言描述时，常常会输出与视觉输入不符的幻觉内容。这一问题在需要精细推理的任务中尤为突出。现有的思维链（CoT）和检索增强生成（RAG）方法虽在一定程度上缓解了幻觉，但仍存在根本性缺陷：它们既没有强制要求在每一步推理中提供可追溯的引文支持，也无法将验证失败的信号反馈给检索模块进行自我修正。

针对这一挑战，Sneha Rao等人在发表于arXiv的新论文中提出了CaVe-VLM-CoT框架。该框架是一个模块化的反思型智能体RAG系统，通过一个五阶段的闭环流水线强制执行基于证据的推理。流水线包括提取器、检索器、求解器、引文注入器和验证器五个模块。当验证器检测到当前推理步骤缺乏充分的证据基础时，会生成结构化反馈，驱动提取器进行针对性的重新检索。这种设计确保了每个输出步骤都能追溯到可靠的引文来源，从而大幅降低了幻觉风险。

为了全面评估此类框架的性能，研究团队还提出了一套包含23个组件级指标的评估体系，覆盖流水线的所有阶段。其中核心指标是CaVeScore，它是一个加权复合指标，综合了准确性、引文精确率与召回率、归因质量以及证据基础程度。实验结果表明，在不改变任何底层模型架构或提示设计的前提下，CaVe-VLM-CoT在ScienceQA数据集上取得了87.1%的准确率和56.6%的CaVeScore，在涵盖30个学科的MMMU数据集上获得了55.2%的准确率和35.7%的CaVeScore。这些结果不仅验证了框架的有效性，也展示了其在提升VLM可解释性和可靠性方面的巨大潜力。