OmniToM:透過顯式信念建模評估大語言模型的心智理論
當前評估大語言模型(LLM)心智理論(ToM)的方法多依賴最終答案,無法揭示模型是否真正構建了心理狀態表徵。本研究提出OmniToM基準,透過顯式建模故事中所有角色的信念結構來直接評估。基準包含信念提取與信念標註兩階段,採用七維標籤體系。基於895個故事和22,343個標註信念命題,藉助人類校準的LLM輔助流程構建。零樣本評估表明,LLM在將敘事事實轉化為角色信念和共享心理狀態時存在瓶頸。
文章情報
要點
- OmniToM透過要求顯式建模信念結構來評估ToM,而非僅依賴問答。
- 評估分為信念提取和信念標註兩階段,使用七維模式標籤。
- 基準涵蓋895個故事,標註了22,343個信念命題。
- 零樣本測試顯示LLM在信念追蹤上存在瓶頸。
為什麼重要
這條新聞值得關注,因為OmniToM透過要求顯式建模信念結構來評估ToM,而非僅依賴問答。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
心智理論(Theory of Mind, ToM)是人工智慧領域一個長期存在的挑戰,它指的是推斷他人知識、意圖和情感的能力。隨著大語言模型(LLM)的快速發展,研究者們開始系統性地評估這些模型是否具備ToM能力。然而,現有的評估方法大多依賴於端到端問答正規化:模型只需對社交推理問題給出最終答案,而評估僅基於答案的正確性。這種正規化存在一個根本性缺陷——它無法揭示模型是否真正構建了用於穩健推理的底層心理狀態表徵。特別是在涉及分歧信念、演變信念或錯誤信念的複雜場景中,這一缺陷尤為突出。
為了填補這一研究空白,來自多個機構的研究人員提出了OmniToM基準。OmniToM的核心創新在於,它要求模型對敘事中所有相關角色的信念結構進行顯式建模。這些信念結構由“信念命題”組成,信念命題是描述角色對世界或他人心理狀態所持信念的最小陳述單位。透過這種統一格式,模型可以同時分析知識、意圖、情感和錯誤信念。例如,一個角色可能持有關於另一個角色信念的信念(遞迴信念),OmniToM能夠清晰地捕捉這種層次結構。
評估過程分為兩個階段。第一階段是信念提取,從故事中提取出與社交動態相關的信念。第二階段是信念標註,為每個信念分配一個七維模式標籤,這些維度包括遞迴順序、真值狀態、知識訪問、外顯性、內容型別、心理來源和上下文。遞迴順序表示信念的巢狀層次,真值狀態區分正確與錯誤信念,知識訪問指示角色是否擁有特定資訊,外顯性判斷信念是明確陳述還是隱含,內容型別區分信念是關於事實還是關於心理狀態,心理來源標識信念的成因,上下文則記錄信念產生的場景。這種多維標註能夠深入刻畫信念的性質,為模型評估提供豐富的分析維度。
OmniToM基準基於現有的ToMBench故事庫中的895個故事構建,並額外標註了22,343個信念命題。整個標註流程採用人類校準的LLM輔助管道,以確保標註質量。研究人員首先讓LLM生成初步標註,然後由人工進行校正和驗證,從而在效率和準確性之間取得平衡。在零樣本評估中,OmniToM測試了多個主流LLM,包括GPT-4、Claude、Llama等。結果一致揭示了當前LLM的一個關鍵瓶頸:演員特定的信念追蹤問題。具體來說,模型在將敘事事實轉化為角色的信念和共享心理狀態時,在知識訪問和表徵決策方面存在困難。例如,模型往往難以區分角色之間的信念差異,或者無法準確建模角色對他人信念的認知。這一發現表明,儘管LLM在許多語言任務上表現出色,但在深層心智推理方面仍有顯著提升空間。
OmniToM的提出不僅為LLM的ToM能力提供了更精細的評估工具,也為未來的研究方向指明瞭道路。它鼓勵研究者開發能夠顯式構建心理狀態表徵的模型,從而推動人工智慧在社交智慧方面的進步。此外,OmniToM的評估框架可以擴充套件到多語言場景,並可能應用於需要社交推理的AI系統,如對話代理和協作機器人。