AI News HubLIVE
站内改写

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 發佈 Nemotron-Labs 擴散語言模型系列,通過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支持自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。

文章情報

工程師進階

要點

  • Nemotron-Labs 擴散模型支持三種生成模式:自迴歸、擴散和自推測。
  • 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
  • 模型基於預訓練自迴歸模型改造,通過聯合訓練保留原有能力並添加擴散能力。
  • 已在 HuggingFace 開源,提供 3B、8B、14B 文本模型及 8B 視覺語言模型。

為甚麼重要

這條新聞值得關注,因為Nemotron-Labs 擴散模型支持三種生成模式:自迴歸、擴散和自推測。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

NVIDIA 近日發佈了 Nemotron-Labs 擴散語言模型系列,旨在突破傳統大型語言模型(LLM)逐 token 生成的性能瓶頸。傳統自迴歸模型雖然穩定高效,但每個新 token 都需要完整的模型前向傳播,導致顯存帶寬成為主要限制因素。對於延遲敏感型應用、小批量推理或希望充分利用現代 GPU 計算能力的開發者而言,逐 token 生成往往無法發揮硬件的全部潛力,因為 GPU 的大部分時間都花在內存操作上,而非實際計算。此外,自迴歸模型一旦生成某個 token 就無法修正,錯誤會逐級傳播。

擴散語言模型(DLM)為解決這些問題提供了新思路:它能夠並行生成多個 token,然後通過多次迭代逐步精煉。這種方法不僅能充分利用 GPU 的計算能力,顯著提升運行時性能,還能對已生成的 token 進行修訂,特別適合文本修改和中間填充任務。更重要的是,這種“生成-精煉”特性使得推理預算可控:通過減少精煉步數,可以降低模型的計算需求。

Nemotron-Labs Diffusion 的核心創新在於將自迴歸與擴散能力整合到同一模型中,支持三種推理模式:標準自迴歸模式保持與現有工作流完全兼容,開發者無需修改代碼即可切換;擴散模式以 32 token 為一個塊進行並行生成和迭代去噪,大幅提升吞吐量;自推測模式則先由擴散生成候選 token,再由自迴歸驗證,兼具速度和可靠性。這種靈活的設計讓開發者可以在部署時通過簡單的配置選擇模式,無需更改應用層代碼。

性能方面,8B 模型在多項基準測試中平均準確率比 Qwen3 8B 高出 1.2%。在推理速度上,以 tokens per forward pass (TPF) 衡量,擴散模式達到自迴歸的 2.6 倍,線性自推測模式達到 6 倍,二次自推測模式達到 6.4 倍。這些提升在低批量甚至單查詢場景下尤為顯著。訓練方面,模型基於 NVIDIA Nemotron 預訓練數據集,使用 1.3 萬億 token 進行聯合自迴歸與擴散目標預訓練,隨後在 45B token 的監督微調數據上進一步優化。該方法從預訓練的自迴歸模型出發,通過改進注意力機制為塊狀結構,保留原有能力的同時添加並行解碼能力。

Nemotron-Labs Diffusion 系列已在 HuggingFace 開源,包括 3B、8B 和 14B 文本模型及 8B 視覺語言模型(VLM),採用 NVIDIA Nemotron 開放模型許可證(商用友好)。推理支持即將集成至 SGLang 主分支,開發者可通過一行配置切換模式。例如,設置 ar_mode=true 運行純自迴歸模式;設置 fast_diffuser 啓動擴散模式;設置 linear_spec 啓用自推測模式。在 B200 上,自推測模式可達約 865 tok/s,約為純自迴歸的 4 倍。無論是構建延遲敏感型應用還是優化推理成本,Nemotron-Labs Diffusion 都提供了一種新的加速方案,無需改變現有應用。