2026-04-28 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

LaDiR：潛在擴散增強LLM的文本推理能力

LaDiR結合變分自編碼器和潛在擴散模型，透過塊級雙向注意力實現推理軌跡的迭代精煉，在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。

大型語言模型（LLM）透過思維鏈（Chain-of-Thought, CoT）生成展現出強大的推理能力。然而，傳統的自迴歸解碼方式存在固有缺陷：模型在生成每個token時僅依賴之前的token，無法以全域性視角回顧或修正早期的推理步驟，導致推理過程缺乏靈活性，且難以高效探索多樣化的解決方案。針對這一問題，Apple機器學習研究團隊聯合加州大學聖迭戈分校的研究人員提出了LaDiR（Latent Diffusion Reasoner），一種全新的推理框架。LaDiR將連續潛在表示的表達能力與潛在擴散模型的迭代精煉能力相結合，旨在提升LLM的文本推理效能。

LaDiR的核心思想分為兩個階段。首先，利用變分自編碼器（VAE）構建結構化的潛在推理空間。VAE將文本推理步驟編碼為“思想塊”（thought blocks）token，這些token在保持語義資訊和可解釋性的同時，提供緊湊而富有表現力的表示。隨後，採用潛在擴散模型（Latent Diffusion Model）學習去噪這些潛在思想塊。該模型採用塊級雙向注意力掩碼（blockwise bidirectional attention mask），使得模型能夠以更長的視野進行推理，並透過自適應測試時計算實現迭代精煉。與自迴歸方法不同，LaDiR允許並行生成多條推理軌跡，從而高效探索多種可能性，並能夠以全域性方式規劃和修正推理過程。

研究團隊在數學推理和規劃基準上對LaDiR進行了全面評估。實驗結果顯示，LaDiR在準確性、多樣性和可解釋性方面持續優於現有的自迴歸方法、基於擴散的方法以及其他潛在推理方法。這一工作揭示了潛在擴散在文本推理中的新正規化，相關論文已被ICLR 2026的“潛在與隱式思維”研討會（Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning）接收。該研究不僅為提升LLM推理能力提供了新思路，也為未來將擴散模型應用於更廣泛的自然語言處理任務奠定了基礎。LaDiR的主要作者包括Haoqiang Kang、Yizhe Zhang、Nikki Lijing Kuang等，他們都來自Apple和加州大學聖迭戈分校。這一成果標誌著將擴散模型引入LLM推理領域的重要一步，有望推動未來AI模型在複雜推理任務中的效能提升和效率改進。