2026-07-02 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 05:00 UTC+8

學習擴散語言模型的去掩碼策略

擴散大型語言模型（dLLM）在多項任務上已達到自迴歸模型的性能，同時推理效率更高。其關鍵設計之一是每個擴散步驟選擇去掩碼令牌的採樣過程。當前啓發式方法需要手動調整且性能隨塊大小增大而下降。本文提出使用強化學習訓練採樣策略，形式化掩碼擴散採樣為馬爾可夫決策過程，並基於單層Transformer設計輕量策略。實驗表明，該策略在半自迴歸生成中與先進啓發式方法性能相當，在全擴散設置中更優。

來源Apple Machine Learning Research

擴散語言模型（dLLM）近年來在自然語言處理領域發展迅速，尤其是在生成任務上表現出色。這類模型通過並行解碼多個令牌，顯著提升了推理效率，使其成為自迴歸模型的有力替代方案。然而，dLLM的一個關鍵設計挑戰在於採樣過程：在每個擴散步驟中，模型需要決定哪些令牌被去掩碼（即生成）。傳統的啓發式方法，例如基於置信度閾值的去掩碼策略，雖然比隨機去掩碼在樣本質量和令牌吞吐量上有所提升，但存在明顯缺陷。首先，這些方法需要人工仔細調整參數；其次，研究觀察到，當採用更大的塊大小進行半自迴歸生成時，啓發式方法的性能會顯著下降，這限制了其在實際應用中的可擴展性。

為了克服這些侷限性，來自阿姆斯特丹大學、麻省理工學院和蘋果公司的研究人員提出了一種基於強化學習（RL）的創新方法。他們將掩碼擴散採樣過程形式化為一個馬爾可夫決策過程（MDP），其中擴散語言模型本身充當環境，而採樣策略則作為智能體。具體而言，他們設計了一個輕量級的策略網絡，基於單層Transformer架構，該網絡將模型輸出的每個令牌的置信度映射為是否去掩碼的決策。通過強化學習訓練，該策略能夠優化生成樣本的質量和效率，而無需手動調整。

在實驗中，研究人員將訓練得到的策略與當前最先進的啓發式方法進行了對比。結果表明，在半自迴歸（塊狀）生成設置下，訓練策略的性能與啓發式方法持平；而在全擴散（即每個步驟只解碼單個令牌）設置下，訓練策略則顯著優於啓發式方法。這一發現表明，通過強化學習學習採樣策略不僅消除了手動調整的需求，還能在更廣泛的設置中提升性能。

該研究為擴散語言模型的採樣策略提供了新的視角，有望推動該類模型在更廣泛場景中的應用，例如代碼生成、文本摘要等任務。相關研究成果已被2026年ICML會議接收，並發表於2026年7月。