正確編碼但理由錯誤?驗證LLM作為理論構建的測量工具
大型語言模型(LLM)在文本編碼中可能與人類標註者一致,但可靠性並不保證構念效度。本文提出“粒度校準”方法,將構念分解為子句級組件,通過提取性證據測試並顯式規則組合結果,從而揭示編碼過程而非僅輸出,驗證從與標註者評分轉向證明模型真實運行於理論指定的構念。
大規模語言模型(LLM)在文本標註任務中常被用作編碼工具,當它們與人類標註者的結果一致時,通常被視為可靠的編碼器。然而,一篇來自arXiv的新論文(2606.28574)指出,這種可靠性掩蓋了構念效度(construct validity)的問題。LLM可能通過理論無關的相關變量達到正確編碼,而非真正理解構唸的理論含義,而現有方法無法區分這種“假測量”與真實測量。
作者Manuel Pita提出了“粒度校準”(grain calibration)方法,旨在填補這一空白。該方法首先將理論構念分解為子句級組件,例如,如果一個構念是“經濟不平等”,可能分解為“收入差距”、“財富集中”、“機會不均”等組件。然後,使用可提取的證據逐一測試每個組件在文本中的體現,例如,通過關鍵詞匹配或語義藴含判斷。最後,通過一個顯式的、基於理論的規則將各組件的結果組合起來,形成最終編碼。這個規則可能是“如果至少兩個組件存在,則編碼為‘經濟不平等’”。
與傳統黑箱式LLM編碼不同,粒度校準的規則是公開陳述的,因此其結構本身提供了關於編碼過程而非僅僅輸出的證據。它可以顯示哪些組件決定了最終編碼,以及在編碼錯誤時,是遺漏了某個組件還是混淆了鄰近構念。例如,如果模型錯誤地將“經濟不平等”編碼為“社會不平等”,粒度校準可以揭示是因為“收入差距”組件被誤認為“社會階層”組件。
這種方法的創新在於將驗證的焦點從比較模型輸出與人類標註者的評分,轉向證明模型確實在運行理論所指定的構念。論文認為,這一轉變對於將LLM確立為社會科學等領域中有效的測量工具至關重要。
該論文提交於2026年6月26日,屬於人工智能、計算與語言以及計算機與社會領域。目前已在arXiv上發佈,並提供了PDF、HTML等格式。作者Manuel Pita博士來自未公開機構。