AI News HubLIVE
站内改写2 分鐘閱讀

可觀察模式並非解釋:潛在推理模型的因果幾何分析

該研究對潛在推理模型(LRM)中的可觀察模式進行了因果與幾何分析,發現如BFS前沿和可解碼算術計算等模式在控制組中也出現,且並非總是因果影響行為。因果乾預揭示潛在思考的利用是分級的,幾何分析顯示效應集中在低秩方向。結論:可觀察模式不能作為內部推理機制的證據,LRM可解釋性需要匹配的控制組和因果測試。

來源arXiv Computational Linguistics作者: Darpan Aswal, Thomas Palmeira Ferraz, Yongxin Zhou, Maxime Peyrard

近年來,潛在推理模型(Latent Reasoning Models, LRMs)逐漸興起,這類模型用連續思維(continuous thoughts)替代了傳統顯式的思維鏈推理過程。許多研究者將可觀察的潛在狀態模式,例如廣度優先搜索(BFS)前沿以及可解碼的算術計算,視為模型內部存在推理機制的強有力的證據。然而,一篇於2026年6月10日提交至arXiv的新研究(論文編號2606.12689)對這一觀點提出了根本性的挑戰。

該論文由Darpan Aswal等四位作者共同完成,標題為“Observable Patterns Are Not Explanations: A Causal-Geometric Analysis of Latent Reasoning Models”。研究團隊評估了兩種具有代表性的潛在推理模型——Coconut和CODI,並將它們與缺少所提議的遞歸機制或課程學習策略的對照模型進行了對比實驗。結果令人大吃一驚:那些原本被認為是推理模式的現象,不僅在目標模型中存在,在對照組中也同樣出現,而且它們並不總是對模型的實際行為產生因果影響。

為了進一步探究潛在思考的真實作用,研究團隊採用了一種名為“因果乾預”的實驗方法。他們發現,潛在思考的利用並不是一個“全有或全無”的二元過程,而是呈現出分級的特點。具體來説,一個潛在思考對模型行為的因果影響越大,該思考被利用的程度就越高。此外,幾何分析的結果顯示,這種因果效應主要集中在低秩的方向上。隨着潛在思考對行為影響的增加,這些方向在步驟之間的幾何結構也變得越來越有序。

基於這些發現,研究者們呼籲,潛在思考應當被視為隱藏的計算過程,而不是隱藏的解釋。僅僅憑藉潛在狀態的可解碼性、注意力分佈或者靜態結構,並不足以説明模型內部存在真正的推理機制。因此,對於潛在推理模型的可解釋性研究來説,必須使用設計得當的匹配對照組,並結合嚴格的因果檢驗,而不能僅僅依賴於表面上觀察到的模式。

這一結論為人工智能可解釋性領域帶來了重要的啓示:在缺乏因果驗證的情況下,將可觀察模式等同於內部推理機制可能會導致誤導性的理解。未來的相關研究應當更加註重對照實驗的設計,從而確保對模型行為給出的解釋具有堅實的因果基礎。