2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

擴散語言模型：一項實驗分析

本文對八種最先進的擴散語言模型（DLM）在推理、編碼、翻譯、知識和結構化問題解決等八個基準上進行了系統實驗分析，同時考慮了生成質量和計算效率。研究發現，DLM的行為受生成時設計選擇（如去噪步驟、上下文長度、塊大小和平行解掩碼策略）的強烈影響，導致效能與計算效率之間存在不同的權衡。該研究為當代DLM的能力和部署特性提供了實用見解。

來源arXiv AI作者: Thomas Bertolani, Davide Bucciarelli, Leonardo Zini, Marcella Cornia, Lorenzo Baraldi

近年來，大型語言模型（LLM）透過自迴歸生成徹底改變了自然語言處理領域，在各種任務中展現出卓越效能。然而，一種新的正規化——擴散語言模型（DLM）——正逐漸興起，它透過迭代去噪而非傳統的下一個詞預測來生成文本，從而能夠對整個序列進行並行最佳化。儘管已有許多基於擴散的架構被提出，但由於評估協議、資料集、推理預算和生成超引數等方面的差異，很難直接比較它們的能力並理解其提供的權衡。

在這項新研究中，作者對現代DLM進行了系統的實驗分析。他們評估了八種最先進的DLM，涉及八個覆蓋推理、編碼、翻譯、知識和結構化問題解決的基準測試，同時明確考慮了生成質量和計算效率。除了下游任務評估，他們還分析了關鍵推理時因素的影響，包括去噪步驟、上下文長度、塊大小和平行解掩碼策略。此外，他們透過在相同條件下訓練的較小模型的受控比較，補充了大規模實驗，從而更深入地理解不同設計選擇的影響。

研究結果突出了基於擴散的語言建模在不同任務、架構和推理預算下的優勢與侷限。例如，某些DLM在推理任務上表現優異，但在編碼任務上可能效率較低。這主要是因為DLM的行為受到生成時設計選擇的強烈影響，導致效能與計算效率之間存在不同的權衡。具體來說，增加去噪步驟通常能提高生成質量，但會顯著增加計算成本；而調整塊大小和平行解掩碼策略則可以在效率和質量之間找到平衡。

該研究還發現，上下文長度對DLM的效能有顯著影響。較長的上下文有助於模型捕捉更長的依賴關係，但也會增加推理時的記憶體消耗。透過系統性的實驗，作者提供了關於如何根據具體任務和資源約束選擇合適配置的實用指南。此外，他們透過控制比較，揭示了較小模型在特定條件下也能達到與大型模型相當的效能，這為資源受限的應用場景提供了重要參考。

總體而言，這項研究為當代DLM的能力和部署特性提供了寶貴的實用見解。它不僅幫助研究人員和工程師更好地理解DLM的工作機制，還為他們設計更高效的模型和應用提供了資料驅動的指導。隨著DLM在越來越多的領域展現潛力，這類系統性分析將變得越來越重要。