正确编码但理由错误?验证LLM作为理论构建的测量工具
大型语言模型(LLM)在文本编码中可能与人类标注者一致,但可靠性并不保证构念效度。本文提出“粒度校准”方法,将构念分解为子句级组件,通过提取性证据测试并显式规则组合结果,从而揭示编码过程而非仅输出,验证从与标注者评分转向证明模型真实运行于理论指定的构念。
大规模语言模型(LLM)在文本标注任务中常被用作编码工具,当它们与人类标注者的结果一致时,通常被视为可靠的编码器。然而,一篇来自arXiv的新论文(2606.28574)指出,这种可靠性掩盖了构念效度(construct validity)的问题。LLM可能通过理论无关的相关变量达到正确编码,而非真正理解构念的理论含义,而现有方法无法区分这种“假测量”与真实测量。
作者Manuel Pita提出了“粒度校准”(grain calibration)方法,旨在填补这一空白。该方法首先将理论构念分解为子句级组件,例如,如果一个构念是“经济不平等”,可能分解为“收入差距”、“财富集中”、“机会不均”等组件。然后,使用可提取的证据逐一测试每个组件在文本中的体现,例如,通过关键词匹配或语义蕴含判断。最后,通过一个显式的、基于理论的规则将各组件的结果组合起来,形成最终编码。这个规则可能是“如果至少两个组件存在,则编码为‘经济不平等’”。
与传统黑箱式LLM编码不同,粒度校准的规则是公开陈述的,因此其结构本身提供了关于编码过程而非仅仅输出的证据。它可以显示哪些组件决定了最终编码,以及在编码错误时,是遗漏了某个组件还是混淆了邻近构念。例如,如果模型错误地将“经济不平等”编码为“社会不平等”,粒度校准可以揭示是因为“收入差距”组件被误认为“社会阶层”组件。
这种方法的创新在于将验证的焦点从比较模型输出与人类标注者的评分,转向证明模型确实在运行理论所指定的构念。论文认为,这一转变对于将LLM确立为社会科学等领域中有效的测量工具至关重要。
该论文提交于2026年6月26日,属于人工智能、计算与语言以及计算机与社会领域。目前已在arXiv上发布,并提供了PDF、HTML等格式。作者Manuel Pita博士来自未公开机构。