2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

WorldBench: 一个具有挑战性且视觉多样的多模态推理基准

WorldBench是一个新的多模态推理基准，旨在评估多模态大语言模型在视觉多样性方面的表现。它通过构建包含数千个视觉概念的分类体系，从搜索引擎和现有数据集中精选图像，并设计前沿模型难以回答的问题。评估15个模型显示，最强模型准确率仅64%，部分模型接近随机水平，突显了视觉多样性在基准测试中的重要性。

来源arXiv Computer Vision作者: Yida Yin, Harish Krishnakumar, Chung Peng Lee, Boya Zeng, Wenhao Chai, Shengbang Tong, Wenhu Chen, Hu Xu, Xingyu Fu, Gabriel Sarch, Aleksandra Korolova, Zhuang Liu

研究人员近日提出了一项名为 WorldBench 的新型基准测试，旨在评估多模态大语言模型（MLLM）在处理真实世界视觉多样性场景时的推理能力。与现有大多数仅扩展任务类型而忽视视觉输入多样性的基准不同，WorldBench 从源头入手，首先构建了一个涵盖生物等多个领域数千个视觉概念的分类体系。基于这一分类，研究团队从搜索引擎和已有数据集中广泛收集图像，力求全面代表视觉世界的多样性。通过结构化的试错过程，他们手动设计了前沿 MLLM 难以正确回答的挑战性问题，从而确保基准的难度和实用性。

在定量和人工评估中，WorldBench 在视觉多样性上超越了所有现有的多样性基准。对 15 个主流 MLLM 的测试结果揭示了当前视觉理解的显著局限：最强的模型（如 GPT-4V）准确率仅为 64.0%，而某些模型的性能甚至仅略高于随机猜测。这一结果表明，尽管 MLLM 在标准化任务上取得了惊人进展，但在处理高度多样化的视觉输入时仍存在严重不足。研究者希望 WorldBench 能够推动社区更加关注视觉多样性在设计多模态基准和训练模型中的价值。该工作不仅可用于评估，还可能启发构建更具鲁棒性的视觉-语言系统，从而推动相关领域的发展。目前，该论文已提交至 arXiv，并提供了项目页面供进一步参考。