2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

CaVe-VLM-CoT：一個可解釋的視覺語言模型框架

CaVe-VLM-CoT是一個模塊化的反思型智能體RAG框架，通過五階段閉環流程減少視覺語言模型中的幻覺現象。它引入了一套包含23個指標的評估體系，其中CaVeScore綜合衡量準確性、引文精確率與召回率、歸因和證據基礎。在ScienceQA和MMMU數據集上，該方法無需修改架構或提示即可達到87.1%和55.2%的準確率。

來源arXiv AI作者: Sneha Rao, Shaina Raza, Dhanesh Ramachandram

視覺語言模型（VLM）在生成流暢的自然語言描述時，常常會輸出與視覺輸入不符的幻覺內容。這一問題在需要精細推理的任務中尤為突出。現有的思維鏈（CoT）和檢索增強生成（RAG）方法雖在一定程度上緩解了幻覺，但仍存在根本性缺陷：它們既沒有強制要求在每一步推理中提供可追溯的引文支持，也無法將驗證失敗的信號反饋給檢索模塊進行自我修正。

針對這一挑戰，Sneha Rao等人在發表於arXiv的新論文中提出了CaVe-VLM-CoT框架。該框架是一個模塊化的反思型智能體RAG系統，通過一個五階段的閉環流水線強制執行基於證據的推理。流水線包括提取器、檢索器、求解器、引文注入器和驗證器五個模塊。當驗證器檢測到當前推理步驟缺乏充分的證據基礎時，會生成結構化反饋，驅動提取器進行針對性的重新檢索。這種設計確保了每個輸出步驟都能追溯到可靠的引文來源，從而大幅降低了幻覺風險。

為了全面評估此類框架的性能，研究團隊還提出了一套包含23個組件級指標的評估體系，覆蓋流水線的所有階段。其中核心指標是CaVeScore，它是一個加權複合指標，綜合了準確性、引文精確率與召回率、歸因質量以及證據基礎程度。實驗結果表明，在不改變任何底層模型架構或提示設計的前提下，CaVe-VLM-CoT在ScienceQA數據集上取得了87.1%的準確率和56.6%的CaVeScore，在涵蓋30個學科的MMMU數據集上獲得了55.2%的準確率和35.7%的CaVeScore。這些結果不僅驗證了框架的有效性，也展示了其在提升VLM可解釋性和可靠性方面的巨大潛力。