CaVe-VLM-CoT:解釈可能な視覚言語モデルフレームワーク
CaVe-VLM-CoTは、5段階の閉ループパイプラインを通じて視覚言語モデルの幻覚を低減する、モジュール型の反射的エージェントRAGフレームワークです。正確性、引用精度/再現率、帰属、証拠の根拠を測定するCaVeScoreを中心とした23のメトリクスを導入します。アーキテクチャの変更なしに、ScienceQAで87.1%の精度、MMMUで55.2%の精度を達成します。
視覚言語モデル(VLM)は、流暢でありながら視覚的に不正確な出力を生成する幻覚の問題が依然として残っています。既存のチェーン・オブ・ソート(CoT)や検索拡張生成(RAG)手法では、ステップレベルの引用根拠付けを強制せず、検証の失敗を検索にフィードバックして修正することもないため、この問題を部分的にしか解決できていません。そこで、新しい研究で提案されたCaVe-VLM-CoTは、モジュール型の反射的エージェントRAGフレームワークであり、5段階の閉ループパイプライン(抽出器、検索器、ソルバー、引用注入器、検証器)を通じて証拠に基づいた推論を強制します。
このフレームワークでは、検証器が根拠のない主張を検出すると、構造化されたフィードバックが抽出器に送られ、対象を絞った再検索が実行されます。これにより、各推論ステップが追跡可能な引用によって裏付けられ、出力の信頼性と解釈可能性が大幅に向上します。既存のフレームワークでは、検索品質、ステップレベルの引用忠実性、クロスモーダルな根拠付けを同時に測定できないため、研究チームは全5段階をカバーする23のコンポーネント別メトリクスからなる評価スイートも提案しました。中心となるのはCaVeScoreで、正確性、引用の精度と再現率、帰属、証拠の根拠付けを加重した複合指標です。実験結果によると、アーキテクチャやプロンプトの変更なしに、CaVe-VLM-CoTはScienceQAデータセットで87.1%の精度と56.6%のCaVeScore、MMMU(30科目)データセットで55.2%の精度と35.7%のCaVeScoreを達成しました。これらの結果は、幻覚を低減し視覚言語モデルの信頼性を高める上で、本フレームワークが有効であることを示しています。