2026-05-06 07:39 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

WorldVQA：衡量多模态大语言模型中的原子世界知识

WorldVQA是一个新基准，用于评估多模态大语言模型在视觉世界知识上的事实准确性。它包含3500个高质量的图像-问题对，涵盖9个类别，重点关注头部与尾部知识分布。前沿模型准确率低于50%，暴露出过度自信和视觉知识差距。

WorldVQA是由Kimi团队开发的全新基准测试，旨在系统地衡量多模态大语言模型（MLLM）对视觉世界知识的事实正确性。尽管当前模型在视觉推理和描述方面取得了显著进展，但它们在识别具体实体方面的可靠性仍是一个关键问题。WorldVQA的核心问题在于：模型是真的识别出它看到的特定对象，还是仅仅基于视觉模式进行幻觉？

数据集由3500个高质量的图像-问题对组成，旨在测试模型的百科全书式知识广度。设计遵循三条核心原则：首先，事实性与无歧义性——每个问题只有一个可验证的正确答案，排除了主观或模糊的场景；其次，丰富的分类法——覆盖自然、地理、文化、物体、交通、娱乐、品牌、体育和人物等9个类别，确保世界知识的广泛覆盖；最后，头部与尾部分布——明确区分常见知识和罕见的长尾知识，从而衡量模型性能随知识难度下降的程度。所有图像和问答对都经过了严格的多阶段人工验证，以消除噪音和歧义。

实验结果揭示了令人警醒的现状：WorldVQA对前沿模型构成了重大挑战。即使是最先进的模型，在长尾视觉知识上的准确率也经常低于50%。例如，Kimi K2.5的整体准确率为46.3%，Gemini-3-pro为47.4%，而其他模型如GPT-5.2、Claude-opus-4.5等则更低。在九个类别中，模型在体育、品牌和人物类别上表现较好，但在自然、文化和娱乐类别上准确率较低。

除了准确性，研究还测量了模型的校准能力，即主观置信度与实际准确率的对齐程度。所有评估模型都显示出普遍的过度自信趋势。Kimi K2.5在校准指标上表现最佳，预期校准误差（ECE）为37.9%，加权平均斜率（Slope）为0.550，但距离理想状态仍存在显著差距。这表明增强多模态模型的自我认知边界是未来研究的关键方向。

WorldVQA是一个简单但有挑战性的基准，提升其表现是下一代AI代理的必要步骤。研究团队已开源WorldVQA数据集和评估脚本，以帮助社区解决视觉知识差距。论文和代码分别可在arXiv和GitHub上获取。