2026-06-18站内改写1 分で読了更新: 2026-06-18

CaVe-VLM-CoT：解釈可能な視覚言語モデルフレームワーク

CaVe-VLM-CoTは、5段階の閉ループパイプラインを通じて視覚言語モデルの幻覚を低減する、モジュール型の反射的エージェントRAGフレームワークです。正確性、引用精度/再現率、帰属、証拠の根拠を測定するCaVeScoreを中心とした23のメトリクスを導入します。アーキテクチャの変更なしに、ScienceQAで87.1%の精度、MMMUで55.2%の精度を達成します。

ソースarXiv AI著者: Sneha Rao, Shaina Raza, Dhanesh Ramachandram

記事インテリジェンス

エンジニア上級

要点

5段階の閉ループパイプライン（抽出器、検索器、ソルバー、引用注入器、検証器）を備えたCaVe-VLM-CoTを提案
検索品質、ステップレベルの引用忠実性、クロスモーダルな根拠付けを評価する複合指標CaVeScoreを導入
ScienceQAで精度87.1%、CaVeScore 56.6%、MMMU（30科目）で精度55.2%、CaVeScore 35.7%を達成
根拠のない主張を検出し、対象を絞った再検索をトリガーする構造化フィードバックループ

重要な理由

このニュースが重要なのは、5段階の閉ループパイプライン（抽出器、検索器、ソルバー、引用注入器、検証器）を備えたCaVe-VLM-CoTを提案ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

視覚言語モデル（VLM）は、流暢でありながら視覚的に不正確な出力を生成する幻覚の問題が依然として残っています。既存のチェーン・オブ・ソート（CoT）や検索拡張生成（RAG）手法では、ステップレベルの引用根拠付けを強制せず、検証の失敗を検索にフィードバックして修正することもないため、この問題を部分的にしか解決できていません。そこで、新しい研究で提案されたCaVe-VLM-CoTは、モジュール型の反射的エージェントRAGフレームワークであり、5段階の閉ループパイプライン（抽出器、検索器、ソルバー、引用注入器、検証器）を通じて証拠に基づいた推論を強制します。

このフレームワークでは、検証器が根拠のない主張を検出すると、構造化されたフィードバックが抽出器に送られ、対象を絞った再検索が実行されます。これにより、各推論ステップが追跡可能な引用によって裏付けられ、出力の信頼性と解釈可能性が大幅に向上します。既存のフレームワークでは、検索品質、ステップレベルの引用忠実性、クロスモーダルな根拠付けを同時に測定できないため、研究チームは全5段階をカバーする23のコンポーネント別メトリクスからなる評価スイートも提案しました。中心となるのはCaVeScoreで、正確性、引用の精度と再現率、帰属、証拠の根拠付けを加重した複合指標です。実験結果によると、アーキテクチャやプロンプトの変更なしに、CaVe-VLM-CoTはScienceQAデータセットで87.1%の精度と56.6%のCaVeScore、MMMU（30科目）データセットで55.2%の精度と35.7%のCaVeScoreを達成しました。これらの結果は、幻覚を低減し視覚言語モデルの信頼性を高める上で、本フレームワークが有効であることを示しています。