形式化潜在思维:LLM思维表示的四条公理
研究者提出了一种评估大型语言模型潜在思维表示的公理框架,定义了因果性、最小性、可分离性和稳定性四条公理,并为每条公理设计了独立于下游精度的定量指标。对23个推理任务的审计发现,没有候选表示能同时满足所有四条公理,且表示在区分任务类型上可靠,但无法区分同一任务内的两个问题,编码的信息也未能超越输入嵌入。这一缺陷在多模型家族中一致存在,表明其结构性本质。
近日,一篇发表在arXiv上的论文(编号2606.27378)提出了一个评估大型语言模型(LLM)中潜在思维表示的新框架。该研究由Fahd Seddik和Fatemeh Fard完成,旨在解决现有评估方法将表示质量与模型能力混为一谈的问题,从而无法将失败归因于表示本身。
研究者形式化了四条功能公理:因果性(表示应捕捉导致输出的关键因素)、最小性(表示应尽可能简洁)、可分性(不同思维的表示应可区分)和稳定性(对输入的小扰动,表示应稳定)。每条公理对应一个定量指标,这些指标直接基于表示计算,不依赖下游任务精度。
具体而言,因果性公理要求表示包含导致最终输出的因果因素,即表示应能解释模型为何给出特定答案。最小性公理要求在保持因果性的前提下尽可能简洁,去除冗余。可分离性要求不同思维(如不同推理路径)的表示在向量空间中可区分。稳定性要求对输入中无关的微小扰动,表示应基本不变。
研究者为每条公理设计了量化指标:因果性通过干预表示特定维度并观察输出变化来度量;最小性通过信息熵或维度冗余度衡量;可分离性使用表示之间的余弦距离或聚类纯度;稳定性通过输入扰动后表示的变化程度评估。这些指标直接作用于表示,不依赖下游准确率。
实验在23个推理任务(如空间推理、事实问答)上进行,覆盖了从7B到70B参数的多个开放权重模型家族,包括Llama、Mistral、Qwen等。结果一致显示,没有候选表示能同时满足所有四条公理。表示虽能可靠区分任务类型(如空间推理 vs. 事实问答),但无法区分同一任务内的不同问题(如两个不同的空间推理问题)。此外,表示编码的信息几乎不比输入嵌入多出任何内容。这一失败在所有模型家族中一致出现,表明该问题是结构性的,而非模型规模或训练过程所致。
该论文共44页,包含27个表格和14张图片,投稿于2026年5月7日。该工作为LLM内部表示评估提供了新视角,暗示当前模型在表示层面可能存在根本性局限,对理解LLM推理能力、模型选型及未来设计具有重要影响。