AI News HubLIVE
站内改写1 分钟阅读

识别与解决基于知识的VQA基准测试的陷阱:审计、修复与增强

本文系统审计了现有的知识型视觉问答(KB-VQA)基准测试,发现其普遍存在答案缺失或矛盾、问题表述模糊以及视觉场景过于简单等缺陷,导致准确率指标失真。作者提出了审计-修复协议和多重实体增强协议来修正这些问题,并验证了修正后模型性能排名的显著变化。

来源arXiv Computational Linguistics作者: Qian Ma, S M Rayeed, Charles V. Stewart, Qiong Wu, Yao Ma

知识型视觉问答(KB-VQA)旨在评估视觉语言模型(VLM)能否超越视觉证据,检索、定位并推理外部结构化知识。然而,当前主流的评估方式——答案准确率——隐含地假设正确性是知识推理的可靠代理指标。这一假设依赖于三个关键前提:标注答案必须能从关联知识库推导出,问题必须约束充分且措辞严谨,视觉场景必须要求基于上下文的消歧。但一项即将发表于ECCV 2026的研究表明,这些前提在现有KB-VQA基准测试中系统性地遭到违反。

由马谦等人开展的审计工作揭示了大量实例,其中存在答案缺失、答案与知识库矛盾,或问题表述过于笼统,使得准确率成为误导性指标。更严重的是,现有数据集依赖视觉上平凡的单一实体场景,完全绕过了复杂的视觉到知识映射需求。即使在可控架构下,这些缺陷也会导致模型排名失真和推理能力被高估。

为解决这些问题,作者引入了两个创新协议:一是原则性的审计-修复协议,用于恢复答案的可推导性和问题的清晰度;二是可控的多实体增强协议,通过引入视觉歧义来挑战模型的初始检索和基础推理能力。在修正和增强设定下的重新评估得到了显著不同的性能趋势。该研究呼吁业界反思当前评估协议,并设计更注重互动式、可验证推理的KB-VQA基准测试,而非简单的匹配能力。

识别与解决基于知识的VQA基准测试的陷阱:审计、修复与增强 | AI News Hub