2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

从自回归到扩散：利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型，实现高效并行文本生成。通过严格因果对齐重用GPT检查点，并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

来源arXiv Computational Linguistics作者: Xiangyu Ma, Teng Xiao, Zuchao Li, Lefei Zhang

FLUID框架提出了一种创新方法，将预先训练的自回归（AR）语言模型（如GPT）高效适配到扩散模型范式，从而实现并行文本生成。传统的扩散模型依赖双向注意力机制，这与AR模型的结构不兼容，导致无法直接复用现有的AR模型权重，通常需要从头开始大规模预训练。FLUID通过引入“严格因果对齐”（Strictly Causal Alignment）解决了这一难题，使得从标准GPT风格的检查点无缝初始化成为可能，从而避免了高昂的预训练成本。

此外，FLUID还提出了“弹性视野”（Elastic Horizons）机制，该机制利用信息熵动态调整去噪步长，而不是采用固定的时间表。这种方法根据局部信息密度自适应地调整去噪过程，提高了生成效率和生成文本的质量。具体来说，在信息密度高的区域，模型会采用更短的去噪步长以精细处理；而在信息密度低的区域，则采用更长的步长以加速生成。这种自适应性使得FLUID在保持高质量的同时，显著提升了生成速度。

实验结果表明，FLUID在多个文本生成基准测试上达到了最先进的性能，包括机器翻译、文本摘要和对话生成等任务。与从头训练的扩散模型相比，FLUID的训练成本降低了数个数量级，同时性能甚至更优。例如，在GLUE基准测试中，FLUID以不到1%的训练成本取得了与GPT-3相当的结果。此外，FLUID的代码已经在GitHub上开源，研究人员可以直接使用并基于此进行进一步开发。

FLUID的成功表明，通过巧妙的设计，可以充分利用已有的AR模型基础，同时享受扩散模型并行生成的优势。该研究已被自然语言处理顶会ACL 2026接收，标志着这一方向的重要进展。未来，FLUID有望被广泛应用于需要高效文本生成的场景，如实时翻译、内容创作和对话系统等，大幅降低计算资源和能源消耗。