利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成
NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。
文章情報
要點
- Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
- 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
- 模型基於預訓練自迴歸模型改造,透過聯合訓練保留原有能力並新增擴散能力。
- 已在 HuggingFace 開源,提供 3B、8B、14B 文本模型及 8B 視覺語言模型。
為什麼重要
這條新聞值得關注,因為Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
NVIDIA 近日釋出了 Nemotron-Labs 擴散語言模型系列,旨在突破傳統大型語言模型(LLM)逐 token 生成的效能瓶頸。傳統自迴歸模型雖然穩定高效,但每個新 token 都需要完整的模型前向傳播,導致視訊記憶體頻寬成為主要限制因素。對於延遲敏感型應用、小批次推理或希望充分利用現代 GPU 計算能力的開發者而言,逐 token 生成往往無法發揮硬體的全部潛力,因為 GPU 的大部分時間都花在記憶體操作上,而非實際計算。此外,自迴歸模型一旦生成某個 token 就無法修正,錯誤會逐級傳播。
擴散語言模型(DLM)為解決這些問題提供了新思路:它能夠並行生成多個 token,然後透過多次迭代逐步精煉。這種方法不僅能充分利用 GPU 的計算能力,顯著提升執行時效能,還能對已生成的 token 進行修訂,特別適合文本修改和中間填充任務。更重要的是,這種“生成-精煉”特性使得推理預算可控:透過減少精煉步數,可以降低模型的計算需求。
Nemotron-Labs Diffusion 的核心創新在於將自迴歸與擴散能力整合到同一模型中,支援三種推理模式:標準自迴歸模式保持與現有工作流完全相容,開發者無需修改程式碼即可切換;擴散模式以 32 token 為一個塊進行並行生成和迭代去噪,大幅提升吞吐量;自推測模式則先由擴散生成候選 token,再由自迴歸驗證,兼具速度和可靠性。這種靈活的設計讓開發者可以在部署時透過簡單的配置選擇模式,無需更改應用層程式碼。
效能方面,8B 模型在多項基準測試中平均準確率比 Qwen3 8B 高出 1.2%。在推理速度上,以 tokens per forward pass (TPF) 衡量,擴散模式達到自迴歸的 2.6 倍,線性自推測模式達到 6 倍,二次自推測模式達到 6.4 倍。這些提升在低批次甚至單查詢場景下尤為顯著。訓練方面,模型基於 NVIDIA Nemotron 預訓練資料集,使用 1.3 萬億 token 進行聯合自迴歸與擴散目標預訓練,隨後在 45B token 的監督微調資料上進一步最佳化。該方法從預訓練的自迴歸模型出發,透過改進注意力機制為塊狀結構,保留原有能力的同時新增並行解碼能力。
Nemotron-Labs Diffusion 系列已在 HuggingFace 開源,包括 3B、8B 和 14B 文本模型及 8B 視覺語言模型(VLM),採用 NVIDIA Nemotron 開放模型許可證(商用友好)。推理支援即將整合至 SGLang 主分支,開發者可透過一行配置切換模式。例如,設定 ar_mode=true 執行純自迴歸模式;設定 fast_diffuser 啟動擴散模式;設定 linear_spec 啟用自推測模式。在 B200 上,自推測模式可達約 865 tok/s,約為純自迴歸的 4 倍。無論是構建延遲敏感型應用還是最佳化推理成本,Nemotron-Labs Diffusion 都提供了一種新的加速方案,無需改變現有應用。