AI News HubLIVE
站內改寫1 分鐘閱讀

學習擴散語言模型的去掩碼策略

擴散大型語言模型(dLLM)在多項任務上已達到自迴歸模型的性能,同時推理效率更高。其關鍵設計之一是每個擴散步驟選擇去掩碼令牌的採樣過程。當前啓發式方法需要手動調整且性能隨塊大小增大而下降。本文提出使用強化學習訓練採樣策略,形式化掩碼擴散採樣為馬爾可夫決策過程,並基於單層Transformer設計輕量策略。實驗表明,該策略在半自迴歸生成中與先進啓發式方法性能相當,在全擴散設置中更優。

擴散語言模型(dLLM)近年來在自然語言處理領域發展迅速,尤其是在生成任務上表現出色。這類模型通過並行解碼多個令牌,顯著提升了推理效率,使其成為自迴歸模型的有力替代方案。然而,dLLM的一個關鍵設計挑戰在於採樣過程:在每個擴散步驟中,模型需要決定哪些令牌被去掩碼(即生成)。傳統的啓發式方法,例如基於置信度閾值的去掩碼策略,雖然比隨機去掩碼在樣本質量和令牌吞吐量上有所提升,但存在明顯缺陷。首先,這些方法需要人工仔細調整參數;其次,研究觀察到,當採用更大的塊大小進行半自迴歸生成時,啓發式方法的性能會顯著下降,這限制了其在實際應用中的可擴展性。

為了克服這些侷限性,來自阿姆斯特丹大學、麻省理工學院和蘋果公司的研究人員提出了一種基於強化學習(RL)的創新方法。他們將掩碼擴散採樣過程形式化為一個馬爾可夫決策過程(MDP),其中擴散語言模型本身充當環境,而採樣策略則作為智能體。具體而言,他們設計了一個輕量級的策略網絡,基於單層Transformer架構,該網絡將模型輸出的每個令牌的置信度映射為是否去掩碼的決策。通過強化學習訓練,該策略能夠優化生成樣本的質量和效率,而無需手動調整。

在實驗中,研究人員將訓練得到的策略與當前最先進的啓發式方法進行了對比。結果表明,在半自迴歸(塊狀)生成設置下,訓練策略的性能與啓發式方法持平;而在全擴散(即每個步驟只解碼單個令牌)設置下,訓練策略則顯著優於啓發式方法。這一發現表明,通過強化學習學習採樣策略不僅消除了手動調整的需求,還能在更廣泛的設置中提升性能。

該研究為擴散語言模型的採樣策略提供了新的視角,有望推動該類模型在更廣泛場景中的應用,例如代碼生成、文本摘要等任務。相關研究成果已被2026年ICML會議接收,並發表於2026年7月。