WorldVQA:衡量多模态大语言模型中的原子世界知识
WorldVQA是一个新基准,用于评估多模态大语言模型在视觉世界知识上的事实准确性。它包含3500个高质量的图像-问题对,涵盖9个类别,重点关注头部与尾部知识分布。前沿模型准确率低于50%,暴露出过度自信和视觉知识差距。
WorldVQA是由Kimi团队开发的全新基准测试,旨在系统地衡量多模态大语言模型(MLLM)对视觉世界知识的事实正确性。尽管当前模型在视觉推理和描述方面取得了显著进展,但它们在识别具体实体方面的可靠性仍是一个关键问题。WorldVQA的核心问题在于:模型是真的识别出它看到的特定对象,还是仅仅基于视觉模式进行幻觉?
数据集由3500个高质量的图像-问题对组成,旨在测试模型的百科全书式知识广度。设计遵循三条核心原则:首先,事实性与无歧义性——每个问题只有一个可验证的正确答案,排除了主观或模糊的场景;其次,丰富的分类法——覆盖自然、地理、文化、物体、交通、娱乐、品牌、体育和人物等9个类别,确保世界知识的广泛覆盖;最后,头部与尾部分布——明确区分常见知识和罕见的长尾知识,从而衡量模型性能随知识难度下降的程度。所有图像和问答对都经过了严格的多阶段人工验证,以消除噪音和歧义。
实验结果揭示了令人警醒的现状:WorldVQA对前沿模型构成了重大挑战。即使是最先进的模型,在长尾视觉知识上的准确率也经常低于50%。例如,Kimi K2.5的整体准确率为46.3%,Gemini-3-pro为47.4%,而其他模型如GPT-5.2、Claude-opus-4.5等则更低。在九个类别中,模型在体育、品牌和人物类别上表现较好,但在自然、文化和娱乐类别上准确率较低。
除了准确性,研究还测量了模型的校准能力,即主观置信度与实际准确率的对齐程度。所有评估模型都显示出普遍的过度自信趋势。Kimi K2.5在校准指标上表现最佳,预期校准误差(ECE)为37.9%,加权平均斜率(Slope)为0.550,但距离理想状态仍存在显著差距。这表明增强多模态模型的自我认知边界是未来研究的关键方向。
WorldVQA是一个简单但有挑战性的基准,提升其表现是下一代AI代理的必要步骤。研究团队已开源WorldVQA数据集和评估脚本,以帮助社区解决视觉知识差距。论文和代码分别可在arXiv和GitHub上获取。