LaDiR:潜在扩散增强LLM的文本推理能力
LaDiR结合变分自编码器和潜在扩散模型,通过块级双向注意力实现推理轨迹的迭代精炼,在数学推理和规划基准上显著提升了准确性、多样性和可解释性。
大型语言模型(LLM)通过思维链(Chain-of-Thought, CoT)生成展现出强大的推理能力。然而,传统的自回归解码方式存在固有缺陷:模型在生成每个token时仅依赖之前的token,无法以全局视角回顾或修正早期的推理步骤,导致推理过程缺乏灵活性,且难以高效探索多样化的解决方案。针对这一问题,Apple机器学习研究团队联合加州大学圣迭戈分校的研究人员提出了LaDiR(Latent Diffusion Reasoner),一种全新的推理框架。LaDiR将连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力相结合,旨在提升LLM的文本推理性能。
LaDiR的核心思想分为两个阶段。首先,利用变分自编码器(VAE)构建结构化的潜在推理空间。VAE将文本推理步骤编码为“思想块”(thought blocks)token,这些token在保持语义信息和可解释性的同时,提供紧凑而富有表现力的表示。随后,采用潜在扩散模型(Latent Diffusion Model)学习去噪这些潜在思想块。该模型采用块级双向注意力掩码(blockwise bidirectional attention mask),使得模型能够以更长的视野进行推理,并通过自适应测试时计算实现迭代精炼。与自回归方法不同,LaDiR允许并行生成多条推理轨迹,从而高效探索多种可能性,并能够以全局方式规划和修正推理过程。
研究团队在数学推理和规划基准上对LaDiR进行了全面评估。实验结果显示,LaDiR在准确性、多样性和可解释性方面持续优于现有的自回归方法、基于扩散的方法以及其他潜在推理方法。这一工作揭示了潜在扩散在文本推理中的新范式,相关论文已被ICLR 2026的“潜在与隐式思维”研讨会(Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning)接收。该研究不仅为提升LLM推理能力提供了新思路,也为未来将扩散模型应用于更广泛的自然语言处理任务奠定了基础。LaDiR的主要作者包括Haoqiang Kang、Yizhe Zhang、Nikki Lijing Kuang等,他们都来自Apple和加州大学圣迭戈分校。这一成果标志着将扩散模型引入LLM推理领域的重要一步,有望推动未来AI模型在复杂推理任务中的性能提升和效率改进。