2026-05-23 08:02 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 發佈 Nemotron-Labs 擴散語言模型系列，通過並行生成與迭代精煉技術，在保持高準確率的同時，相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支持自迴歸、擴散和自推測三種模式，8B 版本在準確率上超越 Qwen3 8B 1.2%，並已開源。

來源Hugging Face Blog

NVIDIA 近日發佈了 Nemotron-Labs 擴散語言模型系列，旨在突破傳統大型語言模型（LLM）逐 token 生成的性能瓶頸。傳統自迴歸模型雖然穩定高效，但每個新 token 都需要完整的模型前向傳播，導致顯存帶寬成為主要限制因素。對於延遲敏感型應用、小批量推理或希望充分利用現代 GPU 計算能力的開發者而言，逐 token 生成往往無法發揮硬件的全部潛力，因為 GPU 的大部分時間都花在內存操作上，而非實際計算。此外，自迴歸模型一旦生成某個 token 就無法修正，錯誤會逐級傳播。

擴散語言模型（DLM）為解決這些問題提供了新思路：它能夠並行生成多個 token，然後通過多次迭代逐步精煉。這種方法不僅能充分利用 GPU 的計算能力，顯著提升運行時性能，還能對已生成的 token 進行修訂，特別適合文本修改和中間填充任務。更重要的是，這種“生成-精煉”特性使得推理預算可控：通過減少精煉步數，可以降低模型的計算需求。

Nemotron-Labs Diffusion 的核心創新在於將自迴歸與擴散能力整合到同一模型中，支持三種推理模式：標準自迴歸模式保持與現有工作流完全兼容，開發者無需修改代碼即可切換；擴散模式以 32 token 為一個塊進行並行生成和迭代去噪，大幅提升吞吐量；自推測模式則先由擴散生成候選 token，再由自迴歸驗證，兼具速度和可靠性。這種靈活的設計讓開發者可以在部署時通過簡單的配置選擇模式，無需更改應用層代碼。

性能方面，8B 模型在多項基準測試中平均準確率比 Qwen3 8B 高出 1.2%。在推理速度上，以 tokens per forward pass (TPF) 衡量，擴散模式達到自迴歸的 2.6 倍，線性自推測模式達到 6 倍，二次自推測模式達到 6.4 倍。這些提升在低批量甚至單查詢場景下尤為顯著。訓練方面，模型基於 NVIDIA Nemotron 預訓練數據集，使用 1.3 萬億 token 進行聯合自迴歸與擴散目標預訓練，隨後在 45B token 的監督微調數據上進一步優化。該方法從預訓練的自迴歸模型出發，通過改進注意力機制為塊狀結構，保留原有能力的同時添加並行解碼能力。

Nemotron-Labs Diffusion 系列已在 HuggingFace 開源，包括 3B、8B 和 14B 文本模型及 8B 視覺語言模型（VLM），採用 NVIDIA Nemotron 開放模型許可證（商用友好）。推理支持即將集成至 SGLang 主分支，開發者可通過一行配置切換模式。例如，設置 ar_mode=true 運行純自迴歸模式；設置 fast_diffuser 啓動擴散模式；設置 linear_spec 啓用自推測模式。在 B200 上，自推測模式可達約 865 tok/s，約為純自迴歸的 4 倍。無論是構建延遲敏感型應用還是優化推理成本，Nemotron-Labs Diffusion 都提供了一種新的加速方案，無需改變現有應用。