2026-06-29 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-29 16:01 UTC+8

形式化潜在思维：LLM思维表示的四条公理

研究者提出了一种评估大型语言模型潜在思维表示的公理框架，定义了因果性、最小性、可分离性和稳定性四条公理，并为每条公理设计了独立于下游精度的定量指标。对23个推理任务的审计发现，没有候选表示能同时满足所有四条公理，且表示在区分任务类型上可靠，但无法区分同一任务内的两个问题，编码的信息也未能超越输入嵌入。这一缺陷在多模型家族中一致存在，表明其结构性本质。

来源arXiv Computational Linguistics作者: Fahd Seddik, Fatemeh Fard

近日，一篇发表在arXiv上的论文（编号2606.27378）提出了一个评估大型语言模型（LLM）中潜在思维表示的新框架。该研究由Fahd Seddik和Fatemeh Fard完成，旨在解决现有评估方法将表示质量与模型能力混为一谈的问题，从而无法将失败归因于表示本身。

研究者形式化了四条功能公理：因果性（表示应捕捉导致输出的关键因素）、最小性（表示应尽可能简洁）、可分性（不同思维的表示应可区分）和稳定性（对输入的小扰动，表示应稳定）。每条公理对应一个定量指标，这些指标直接基于表示计算，不依赖下游任务精度。

具体而言，因果性公理要求表示包含导致最终输出的因果因素，即表示应能解释模型为何给出特定答案。最小性公理要求在保持因果性的前提下尽可能简洁，去除冗余。可分离性要求不同思维（如不同推理路径）的表示在向量空间中可区分。稳定性要求对输入中无关的微小扰动，表示应基本不变。

研究者为每条公理设计了量化指标：因果性通过干预表示特定维度并观察输出变化来度量；最小性通过信息熵或维度冗余度衡量；可分离性使用表示之间的余弦距离或聚类纯度；稳定性通过输入扰动后表示的变化程度评估。这些指标直接作用于表示，不依赖下游准确率。

实验在23个推理任务（如空间推理、事实问答）上进行，覆盖了从7B到70B参数的多个开放权重模型家族，包括Llama、Mistral、Qwen等。结果一致显示，没有候选表示能同时满足所有四条公理。表示虽能可靠区分任务类型（如空间推理 vs. 事实问答），但无法区分同一任务内的不同问题（如两个不同的空间推理问题）。此外，表示编码的信息几乎不比输入嵌入多出任何内容。这一失败在所有模型家族中一致出现，表明该问题是结构性的，而非模型规模或训练过程所致。

该论文共44页，包含27个表格和14张图片，投稿于2026年5月7日。该工作为LLM内部表示评估提供了新视角，暗示当前模型在表示层面可能存在根本性局限，对理解LLM推理能力、模型选型及未来设计具有重要影响。