2026-05-26 18:49 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

序列知识 #866：你需要了解的三款文本扩散模型

文本扩散模型挑战了传统自回归语言生成范式，将生成过程视为从噪声或掩码开始、逐步精炼的编辑过程。文章介绍了该领域的三个关键系统：LLaDA（证明扩散可扩展为大型语言模型）、Mercury（实现商业速度优势）和Gemini Diffusion（前沿验证），它们共同代表了新架构类的三阶段：科学证明、工业部署和前沿验证。

来源TheSequence作者: Jesus Rodriguez

💡 今日AI概念：你需要了解的三款文本扩散模型

在大语言模型时代的大部分时间里，语言生成都建立在一个单一假设上：文本应该像打字机一样，从左到右一次一个词元地生成，每个新符号基于固定的历史条件。文本扩散模型从根本上挑战了这一假设。它们将生成过程视为更像是编辑而非打字：从噪声或掩码开始，观察整个画卷，然后通过迭代精炼使其成为连贯的语言。

这听起来像是一种风格上的调整，但实际上是一种不同的计算世界观。扩散模型没有将语言分解为“给定所有先前词元的下一个词元”，而是定义了一个损坏过程，然后学习如何逆转它。在语言中，这通常意味着掩码词元或将文本推入更嘈杂的潜在状态，然后训练模型通过若干去噪步骤恢复原始序列。结果是一个系统可以同时更新多个位置，在生成过程中使用双向上下文，并且可以重新审视自己的输出，而不是每一步都不可逆地承诺。

纵观当前领域，有三个系统比其他任何系统都更能定义对话：LLaDA，它证明了扩散可以扩展为真正的大型语言模型；Mercury，它将扩散转变为真正的商业速度优势；以及Gemini Diffusion，它表明前沿实验室认为这一范式具有战略重要性。它们共同勾勒出新架构类的三个阶段：科学证明、工业部署和前沿验证。

LLaDA：扩散可扩展的科学证明

LLaDA是第一个令人信服的证据，表明扩散模型能够达到大型语言模型（LLM）所需的规模和能力。传统的文本扩散模型通常受限于小规模或特定领域，但LLaDA通过纯扩散框架在数十亿参数上展示了高质量的文本生成，效果可与自回归模型相媲美。它使用掩码语言建模风格的训练，但推理时采用多步去噪，而不是一次性预测。这使得模型能利用完整的句子级上下文，生成更加连贯和多样化的输出。LLaDA的出现标志着文本扩散从学术好奇走向可行替代方案。

Mercury：为速度而生的扩散模型

如果说LLaDA展示了扩散“能工作”，那么Mercury则展示了它能“快起来”。Mercury将扩散过程优化到近乎实时的推理速度，使其在商业部署中具有竞争力。它通过更高效的噪声调度、并行解码和轻量级架构实现了这一目标。在实际应用中，Mercury能在保持质量的同时显著减少延迟，这对聊天机器人、实时翻译等交互式应用至关重要。Mercury的成功表明，扩散模型不仅是一种学术替代方案，还可以成为面向用户的产品核心。

Gemini Diffusion：前沿实验室的关注

当行业巨头如Google DeepMind推出Gemini Diffusion时，很明显文本扩散已不再是边缘话题。Gemini Diffusion整合了扩散机制与更大规模的混合架构，展示了在多模态和复杂推理任务上的潜力。它证实了扩散生成的优势——更好的全局连贯性、更少的重复和更灵活的编辑能力——能够在最苛刻的应用场景中发挥作用。Gemini Diffusion的出现将文本扩散定位为下一代生成模型的关键组成部分，激励了更多研究并加速了行业采纳。

总结

从LLaDA的科学验证到Mercury的工业提速，再到Gemini Diffusion的前沿背书，这三款模型共同展示了文本扩散模型的进化轨迹。它们不仅是技术突破的灯塔，更是未来语言生成架构的基石。理解这些模型意味着你正在见证AI如何从逐词拼写转向全盘画作式的创作。