2026-04-28 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

LaDiR：潜在扩散增强LLM的文本推理能力

LaDiR结合变分自编码器和潜在扩散模型，通过块级双向注意力实现推理轨迹的迭代精炼，在数学推理和规划基准上显著提升了准确性、多样性和可解释性。

大型语言模型（LLM）通过思维链（Chain-of-Thought, CoT）生成展现出强大的推理能力。然而，传统的自回归解码方式存在固有缺陷：模型在生成每个token时仅依赖之前的token，无法以全局视角回顾或修正早期的推理步骤，导致推理过程缺乏灵活性，且难以高效探索多样化的解决方案。针对这一问题，Apple机器学习研究团队联合加州大学圣迭戈分校的研究人员提出了LaDiR（Latent Diffusion Reasoner），一种全新的推理框架。LaDiR将连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力相结合，旨在提升LLM的文本推理性能。

LaDiR的核心思想分为两个阶段。首先，利用变分自编码器（VAE）构建结构化的潜在推理空间。VAE将文本推理步骤编码为“思想块”（thought blocks）token，这些token在保持语义信息和可解释性的同时，提供紧凑而富有表现力的表示。随后，采用潜在扩散模型（Latent Diffusion Model）学习去噪这些潜在思想块。该模型采用块级双向注意力掩码（blockwise bidirectional attention mask），使得模型能够以更长的视野进行推理，并通过自适应测试时计算实现迭代精炼。与自回归方法不同，LaDiR允许并行生成多条推理轨迹，从而高效探索多种可能性，并能够以全局方式规划和修正推理过程。

研究团队在数学推理和规划基准上对LaDiR进行了全面评估。实验结果显示，LaDiR在准确性、多样性和可解释性方面持续优于现有的自回归方法、基于扩散的方法以及其他潜在推理方法。这一工作揭示了潜在扩散在文本推理中的新范式，相关论文已被ICLR 2026的“潜在与隐式思维”研讨会（Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning）接收。该研究不仅为提升LLM推理能力提供了新思路，也为未来将扩散模型应用于更广泛的自然语言处理任务奠定了基础。LaDiR的主要作者包括Haoqiang Kang、Yizhe Zhang、Nikki Lijing Kuang等，他们都来自Apple和加州大学圣迭戈分校。这一成果标志着将扩散模型引入LLM推理领域的重要一步，有望推动未来AI模型在复杂推理任务中的性能提升和效率改进。