2026-05-26 18:49 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

序列知識 #866：你需要了解的三款文本擴散模型

文本擴散模型挑戰了傳統自迴歸語言生成正規化，將生成過程視為從噪聲或掩碼開始、逐步精煉的編輯過程。文章介紹了該領域的三個關鍵系統：LLaDA（證明擴散可擴充套件為大型語言模型）、Mercury（實現商業速度優勢）和Gemini Diffusion（前沿驗證），它們共同代表了新架構類的三階段：科學證明、工業部署和前沿驗證。

來源TheSequence作者: Jesus Rodriguez

💡 今日AI概念：你需要了解的三款文本擴散模型

在大語言模型時代的大部分時間裡，語言生成都建立在一個單一假設上：文本應該像打字機一樣，從左到右一次一個詞元地生成，每個新符號基於固定的歷史條件。文本擴散模型從根本上挑戰了這一假設。它們將生成過程視為更像是編輯而非打字：從噪聲或掩碼開始，觀察整個畫卷，然後透過迭代精煉使其成為連貫的語言。

這聽起來像是一種風格上的調整，但實際上是一種不同的計算世界觀。擴散模型沒有將語言分解為“給定所有先前詞元的下一個詞元”，而是定義了一個損壞過程，然後學習如何逆轉它。在語言中，這通常意味著掩碼詞元或將文本推入更嘈雜的潛在狀態，然後訓練模型透過若干去噪步驟恢復原始序列。結果是一個系統可以同時更新多個位置，在生成過程中使用雙向上下文，並且可以重新審視自己的輸出，而不是每一步都不可逆地承諾。

縱觀當前領域，有三個系統比其他任何系統都更能定義對話：LLaDA，它證明了擴散可以擴充套件為真正的大型語言模型；Mercury，它將擴散轉變為真正的商業速度優勢；以及Gemini Diffusion，它表明前沿實驗室認為這一正規化具有戰略重要性。它們共同勾勒出新架構類的三個階段：科學證明、工業部署和前沿驗證。

LLaDA：擴散可擴充套件的科學證明

LLaDA是第一個令人信服的證據，表明擴散模型能夠達到大型語言模型（LLM）所需的規模和能力。傳統的文本擴散模型通常受限於小規模或特定領域，但LLaDA透過純擴散框架在數十億引數上展示了高質量的文本生成，效果可與自迴歸模型相媲美。它使用掩碼語言建模風格的訓練，但推理時採用多步去噪，而不是一次性預測。這使得模型能利用完整的句子級上下文，生成更加連貫和多樣化的輸出。LLaDA的出現標誌著文本擴散從學術好奇走向可行替代方案。

Mercury：為速度而生的擴散模型

如果說LLaDA展示了擴散“能工作”，那麼Mercury則展示了它能“快起來”。Mercury將擴散過程最佳化到近乎即時的推理速度，使其在商業部署中具有競爭力。它透過更高效的噪聲排程、並行解碼和輕量級架構實現了這一目標。在實際應用中，Mercury能在保持質量的同時顯著減少延遲，這對聊天機器人、即時翻譯等互動式應用至關重要。Mercury的成功表明，擴散模型不僅是一種學術替代方案，還可以成為面向使用者的產品核心。

Gemini Diffusion：前沿實驗室的關注

當行業巨頭如Google DeepMind推出Gemini Diffusion時，很明顯文本擴散已不再是邊緣話題。Gemini Diffusion整合了擴散機制與更大規模的混合架構，展示了在多模態和複雜推理任務上的潛力。它證實了擴散生成的優勢——更好的全域性連貫性、更少的重複和更靈活的編輯能力——能夠在最苛刻的應用場景中發揮作用。Gemini Diffusion的出現將文本擴散定位為下一代生成模型的關鍵組成部分，激勵了更多研究並加速了行業採納。

總結

從LLaDA的科學驗證到Mercury的工業提速，再到Gemini Diffusion的前沿背書，這三款模型共同展示了文本擴散模型的進化軌跡。它們不僅是技術突破的燈塔，更是未來語言生成架構的基石。理解這些模型意味著你正在見證AI如何從逐詞拼寫轉向全盤畫作式的創作。