OmniToM:通过显式信念建模评估大语言模型的心智理论
当前评估大语言模型(LLM)心智理论(ToM)的方法多依赖最终答案,无法揭示模型是否真正构建了心理状态表征。本研究提出OmniToM基准,通过显式建模故事中所有角色的信念结构来直接评估。基准包含信念提取与信念标注两阶段,采用七维标签体系。基于895个故事和22,343个标注信念命题,借助人类校准的LLM辅助流程构建。零样本评估表明,LLM在将叙事事实转化为角色信念和共享心理状态时存在瓶颈。
文章情报
要点
- OmniToM通过要求显式建模信念结构来评估ToM,而非仅依赖问答。
- 评估分为信念提取和信念标注两阶段,使用七维模式标签。
- 基准涵盖895个故事,标注了22,343个信念命题。
- 零样本测试显示LLM在信念追踪上存在瓶颈。
为什么重要
这条新闻值得关注,因为OmniToM通过要求显式建模信念结构来评估ToM,而非仅依赖问答。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
心智理论(Theory of Mind, ToM)是人工智能领域一个长期存在的挑战,它指的是推断他人知识、意图和情感的能力。随着大语言模型(LLM)的快速发展,研究者们开始系统性地评估这些模型是否具备ToM能力。然而,现有的评估方法大多依赖于端到端问答范式:模型只需对社交推理问题给出最终答案,而评估仅基于答案的正确性。这种范式存在一个根本性缺陷——它无法揭示模型是否真正构建了用于稳健推理的底层心理状态表征。特别是在涉及分歧信念、演变信念或错误信念的复杂场景中,这一缺陷尤为突出。
为了填补这一研究空白,来自多个机构的研究人员提出了OmniToM基准。OmniToM的核心创新在于,它要求模型对叙事中所有相关角色的信念结构进行显式建模。这些信念结构由“信念命题”组成,信念命题是描述角色对世界或他人心理状态所持信念的最小陈述单位。通过这种统一格式,模型可以同时分析知识、意图、情感和错误信念。例如,一个角色可能持有关于另一个角色信念的信念(递归信念),OmniToM能够清晰地捕捉这种层次结构。
评估过程分为两个阶段。第一阶段是信念提取,从故事中提取出与社交动态相关的信念。第二阶段是信念标注,为每个信念分配一个七维模式标签,这些维度包括递归顺序、真值状态、知识访问、外显性、内容类型、心理来源和上下文。递归顺序表示信念的嵌套层次,真值状态区分正确与错误信念,知识访问指示角色是否拥有特定信息,外显性判断信念是明确陈述还是隐含,内容类型区分信念是关于事实还是关于心理状态,心理来源标识信念的成因,上下文则记录信念产生的场景。这种多维标注能够深入刻画信念的性质,为模型评估提供丰富的分析维度。
OmniToM基准基于现有的ToMBench故事库中的895个故事构建,并额外标注了22,343个信念命题。整个标注流程采用人类校准的LLM辅助管道,以确保标注质量。研究人员首先让LLM生成初步标注,然后由人工进行校正和验证,从而在效率和准确性之间取得平衡。在零样本评估中,OmniToM测试了多个主流LLM,包括GPT-4、Claude、Llama等。结果一致揭示了当前LLM的一个关键瓶颈:演员特定的信念追踪问题。具体来说,模型在将叙事事实转化为角色的信念和共享心理状态时,在知识访问和表征决策方面存在困难。例如,模型往往难以区分角色之间的信念差异,或者无法准确建模角色对他人信念的认知。这一发现表明,尽管LLM在许多语言任务上表现出色,但在深层心智推理方面仍有显著提升空间。
OmniToM的提出不仅为LLM的ToM能力提供了更精细的评估工具,也为未来的研究方向指明了道路。它鼓励研究者开发能够显式构建心理状态表征的模型,从而推动人工智能在社交智能方面的进步。此外,OmniToM的评估框架可以扩展到多语言场景,并可能应用于需要社交推理的AI系统,如对话代理和协作机器人。