GroupToM-Bench:用於評估多模態大語言模型中羣體心理理論與非線性社會湧現的基準測試
研究者提出GroupToM-Bench,這是首個針對羣體級心理理論的多模態基準測試。現有模型在個體心理理論上表現不錯,但在理解羣體行為非線性湧現方面存在顯著不足。該基準涵蓋從微觀信念-慾望-意圖狀態到羣體張力和結構約束,再到宏觀結果預測的因果鏈條,並設計了七級認知審計框架。實驗顯示,當前模型與人類基線之間仍有較大差距。
近日,Weidong Tang等十位研究者共同發表了一篇被ACL 2026錄用的論文,提出了GroupToM-Bench——這是首個專門用於評估多模態大語言模型在羣體級心理理論(Group Theory of Mind)能力的基準測試。心理理論是指個體理解他人心理狀態(如信念、意圖)的能力。儘管當前的多模態模型在個體層面的心理理論推理上取得了顯著進展,但它們在更復雜的羣體層面表現不佳。羣體行為往往從社會緊張、從眾動態和結構約束中非線性地湧現,而不僅僅是個體意圖的簡單加總。這意味着,即使模型能夠準確推斷單個個體的心理狀態,也難以直接推導出羣體層面的結果。
GroupToM-Bench的設計圍繞一個清晰的因果鏈條展開:微觀層級的BDI狀態(信念、慾望、意圖)、中觀層級的羣體張力和結構約束,以及宏觀層級的羣體結果預測與機制歸因。為了全面評估這一能力,研究者開發了一個七級認知審計框架,逐步考察模型在不同抽象層級上的推理表現。該框架從個體BDI推斷開始,逐步引入羣體互動因素,最終要求模型基於完整的因果鏈預測羣體行為並解釋其機制。
實驗結果顯示,當前最先進的多模態大語言模型,如GPT-4V等,在羣體級心理理論任務上遠未達到人類水平。它們在社會結構認知和非線性集體動態處理方面存在顯著缺陷,尤其是在需要整合多方信息並理解複雜交互的場景中,模型的表現與人類基準之間存在巨大鴻溝。例如,在涉及羣體緊張和結構約束的任務中,模型常常忽略關鍵的社會線索,導致預測偏離實際。
該基準的發佈為未來研究指明瞭方向。它強調了在追求通用人工智能的過程中,構建一個能夠理解社會世界模型的重要性——不僅需要理解物理世界,還要能夠推理複雜的社會交互。GroupToM-Bench填補了當前評估體系中的一個關鍵空白,有望推動多模態大語言模型在社交智能方面的進步。論文自2026年6月2日在arXiv提交以來,已獲得廣泛關注。