LaDiR:潛在擴散增強LLM的文本推理能力
LaDiR結合變分自編碼器和潛在擴散模型,透過塊級雙向注意力實現推理軌跡的迭代精煉,在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。
大型語言模型(LLM)透過思維鏈(Chain-of-Thought, CoT)生成展現出強大的推理能力。然而,傳統的自迴歸解碼方式存在固有缺陷:模型在生成每個token時僅依賴之前的token,無法以全域性視角回顧或修正早期的推理步驟,導致推理過程缺乏靈活性,且難以高效探索多樣化的解決方案。針對這一問題,Apple機器學習研究團隊聯合加州大學聖迭戈分校的研究人員提出了LaDiR(Latent Diffusion Reasoner),一種全新的推理框架。LaDiR將連續潛在表示的表達能力與潛在擴散模型的迭代精煉能力相結合,旨在提升LLM的文本推理效能。
LaDiR的核心思想分為兩個階段。首先,利用變分自編碼器(VAE)構建結構化的潛在推理空間。VAE將文本推理步驟編碼為“思想塊”(thought blocks)token,這些token在保持語義資訊和可解釋性的同時,提供緊湊而富有表現力的表示。隨後,採用潛在擴散模型(Latent Diffusion Model)學習去噪這些潛在思想塊。該模型採用塊級雙向注意力掩碼(blockwise bidirectional attention mask),使得模型能夠以更長的視野進行推理,並透過自適應測試時計算實現迭代精煉。與自迴歸方法不同,LaDiR允許並行生成多條推理軌跡,從而高效探索多種可能性,並能夠以全域性方式規劃和修正推理過程。
研究團隊在數學推理和規劃基準上對LaDiR進行了全面評估。實驗結果顯示,LaDiR在準確性、多樣性和可解釋性方面持續優於現有的自迴歸方法、基於擴散的方法以及其他潛在推理方法。這一工作揭示了潛在擴散在文本推理中的新正規化,相關論文已被ICLR 2026的“潛在與隱式思維”研討會(Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning)接收。該研究不僅為提升LLM推理能力提供了新思路,也為未來將擴散模型應用於更廣泛的自然語言處理任務奠定了基礎。LaDiR的主要作者包括Haoqiang Kang、Yizhe Zhang、Nikki Lijing Kuang等,他們都來自Apple和加州大學聖迭戈分校。這一成果標誌著將擴散模型引入LLM推理領域的重要一步,有望推動未來AI模型在複雜推理任務中的效能提升和效率改進。