AI News HubLIVE
站内改写2 分钟阅读

可观察模式并非解释:潜在推理模型的因果几何分析

该研究对潜在推理模型(LRM)中的可观察模式进行了因果与几何分析,发现如BFS前沿和可解码算术计算等模式在控制组中也出现,且并非总是因果影响行为。因果干预揭示潜在思考的利用是分级的,几何分析显示效应集中在低秩方向。结论:可观察模式不能作为内部推理机制的证据,LRM可解释性需要匹配的控制组和因果测试。

来源arXiv Computational Linguistics作者: Darpan Aswal, Thomas Palmeira Ferraz, Yongxin Zhou, Maxime Peyrard

近年来,潜在推理模型(Latent Reasoning Models, LRMs)逐渐兴起,这类模型用连续思维(continuous thoughts)替代了传统显式的思维链推理过程。许多研究者将可观察的潜在状态模式,例如广度优先搜索(BFS)前沿以及可解码的算术计算,视为模型内部存在推理机制的强有力的证据。然而,一篇于2026年6月10日提交至arXiv的新研究(论文编号2606.12689)对这一观点提出了根本性的挑战。

该论文由Darpan Aswal等四位作者共同完成,标题为“Observable Patterns Are Not Explanations: A Causal-Geometric Analysis of Latent Reasoning Models”。研究团队评估了两种具有代表性的潜在推理模型——Coconut和CODI,并将它们与缺少所提议的递归机制或课程学习策略的对照模型进行了对比实验。结果令人大吃一惊:那些原本被认为是推理模式的现象,不仅在目标模型中存在,在对照组中也同样出现,而且它们并不总是对模型的实际行为产生因果影响。

为了进一步探究潜在思考的真实作用,研究团队采用了一种名为“因果干预”的实验方法。他们发现,潜在思考的利用并不是一个“全有或全无”的二元过程,而是呈现出分级的特点。具体来说,一个潜在思考对模型行为的因果影响越大,该思考被利用的程度就越高。此外,几何分析的结果显示,这种因果效应主要集中在低秩的方向上。随着潜在思考对行为影响的增加,这些方向在步骤之间的几何结构也变得越来越有序。

基于这些发现,研究者们呼吁,潜在思考应当被视为隐藏的计算过程,而不是隐藏的解释。仅仅凭借潜在状态的可解码性、注意力分布或者静态结构,并不足以说明模型内部存在真正的推理机制。因此,对于潜在推理模型的可解释性研究来说,必须使用设计得当的匹配对照组,并结合严格的因果检验,而不能仅仅依赖于表面上观察到的模式。

这一结论为人工智能可解释性领域带来了重要的启示:在缺乏因果验证的情况下,将可观察模式等同于内部推理机制可能会导致误导性的理解。未来的相关研究应当更加注重对照实验的设计,从而确保对模型行为给出的解释具有坚实的因果基础。