CaVe-VLM-CoT:一個可解釋的視覺語言模型框架
CaVe-VLM-CoT是一個模塊化的反思型智能體RAG框架,通過五階段閉環流程減少視覺語言模型中的幻覺現象。它引入了一套包含23個指標的評估體系,其中CaVeScore綜合衡量準確性、引文精確率與召回率、歸因和證據基礎。在ScienceQA和MMMU數據集上,該方法無需修改架構或提示即可達到87.1%和55.2%的準確率。
視覺語言模型(VLM)在生成流暢的自然語言描述時,常常會輸出與視覺輸入不符的幻覺內容。這一問題在需要精細推理的任務中尤為突出。現有的思維鏈(CoT)和檢索增強生成(RAG)方法雖在一定程度上緩解了幻覺,但仍存在根本性缺陷:它們既沒有強制要求在每一步推理中提供可追溯的引文支持,也無法將驗證失敗的信號反饋給檢索模塊進行自我修正。
針對這一挑戰,Sneha Rao等人在發表於arXiv的新論文中提出了CaVe-VLM-CoT框架。該框架是一個模塊化的反思型智能體RAG系統,通過一個五階段的閉環流水線強制執行基於證據的推理。流水線包括提取器、檢索器、求解器、引文注入器和驗證器五個模塊。當驗證器檢測到當前推理步驟缺乏充分的證據基礎時,會生成結構化反饋,驅動提取器進行針對性的重新檢索。這種設計確保了每個輸出步驟都能追溯到可靠的引文來源,從而大幅降低了幻覺風險。
為了全面評估此類框架的性能,研究團隊還提出了一套包含23個組件級指標的評估體系,覆蓋流水線的所有階段。其中核心指標是CaVeScore,它是一個加權複合指標,綜合了準確性、引文精確率與召回率、歸因質量以及證據基礎程度。實驗結果表明,在不改變任何底層模型架構或提示設計的前提下,CaVe-VLM-CoT在ScienceQA數據集上取得了87.1%的準確率和56.6%的CaVeScore,在涵蓋30個學科的MMMU數據集上獲得了55.2%的準確率和35.7%的CaVeScore。這些結果不僅驗證了框架的有效性,也展示了其在提升VLM可解釋性和可靠性方面的巨大潛力。