序列知识第862期:了解文本扩散模型
文本扩散模型作为自回归Transformer模型在语言生成领域的可信替代方案正在兴起,克服了生成漂移和反转诅咒等局限。
在当代AI架构中,模态之间存在明显的分化。视觉领域完全由扩散模型主导——从Midjourney到Stable Diffusion,再到OpenAI的Sora,从纯噪声开始逐步去噪生成高保真图像或视频的范式已被证明极其有效。然而,在文本领域,扩散模型长期以来只是事后思考。GPT-4、Claude、LLaMA等大型语言模型坚定地采用自回归(AR)架构:它们是序列预测器,通过查看上下文、预测下一个token、将其附加到上下文并重复,严格从左到右进行因果生成。
多年来,共识很简单:自回归就是语言的天然物理特性。但这种顺序范式存在明显的缺陷。由于AR模型从左到右盲目生成,它们难以进行全局规划。如果早期在序列中出现轻微逻辑错误,该错误会永久嵌入上下文窗口,导致级联失败——这一现象常被批评为“生成漂移”。此外,AR模型还遭受“反转诅咒”:它们可以轻松地正向背诵一首诗,但如果要求反向背诵,其因果注意力机制就会完全失效。
文本扩散模型的出现提供了一种替代方案。与自回归不同,它们从随机噪声开始,通过迭代去噪逐步构建文本,类似于视觉扩散的过程。这种方法有望实现全局规划,减少早期错误的影响,并规避反转诅咒。尽管目前文本扩散模型仍在发展中,但它们代表了AI生成领域一个值得关注的方向。