2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GroupToM-Bench：用于评估多模态大语言模型中群体心理理论与非线性社会涌现的基准测试

研究者提出GroupToM-Bench，这是首个针对群体级心理理论的多模态基准测试。现有模型在个体心理理论上表现不错，但在理解群体行为非线性涌现方面存在显著不足。该基准涵盖从微观信念-欲望-意图状态到群体张力和结构约束，再到宏观结果预测的因果链条，并设计了七级认知审计框架。实验显示，当前模型与人类基线之间仍有较大差距。

来源arXiv Computer Vision作者: Weidong Tang, Jierui Li, Yueling Hou, Zihan Mei, Can Zhang, Xinyan Wan, Zhiyuan Liang, Pengfei Zhou, Yang You, Wangbo Zhao

近日，Weidong Tang等十位研究者共同发表了一篇被ACL 2026录用的论文，提出了GroupToM-Bench——这是首个专门用于评估多模态大语言模型在群体级心理理论（Group Theory of Mind）能力的基准测试。心理理论是指个体理解他人心理状态（如信念、意图）的能力。尽管当前的多模态模型在个体层面的心理理论推理上取得了显著进展，但它们在更复杂的群体层面表现不佳。群体行为往往从社会紧张、从众动态和结构约束中非线性地涌现，而不仅仅是个体意图的简单加总。这意味着，即使模型能够准确推断单个个体的心理状态，也难以直接推导出群体层面的结果。

GroupToM-Bench的设计围绕一个清晰的因果链条展开：微观层级的BDI状态（信念、欲望、意图）、中观层级的群体张力和结构约束，以及宏观层级的群体结果预测与机制归因。为了全面评估这一能力，研究者开发了一个七级认知审计框架，逐步考察模型在不同抽象层级上的推理表现。该框架从个体BDI推断开始，逐步引入群体互动因素，最终要求模型基于完整的因果链预测群体行为并解释其机制。

实验结果显示，当前最先进的多模态大语言模型，如GPT-4V等，在群体级心理理论任务上远未达到人类水平。它们在社会结构认知和非线性集体动态处理方面存在显著缺陷，尤其是在需要整合多方信息并理解复杂交互的场景中，模型的表现与人类基准之间存在巨大鸿沟。例如，在涉及群体紧张和结构约束的任务中，模型常常忽略关键的社会线索，导致预测偏离实际。

该基准的发布为未来研究指明了方向。它强调了在追求通用人工智能的过程中，构建一个能够理解社会世界模型的重要性——不仅需要理解物理世界，还要能够推理复杂的社会交互。GroupToM-Bench填补了当前评估体系中的一个关键空白，有望推动多模态大语言模型在社交智能方面的进步。论文自2026年6月2日在arXiv提交以来，已获得广泛关注。