AI News HubLIVE
站内改写

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。

文章情報

工程師進階

要點

  • Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
  • 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
  • 模型基於預訓練自迴歸模型改造,透過聯合訓練保留原有能力並新增擴散能力。
  • 已在 HuggingFace 開源,提供 3B、8B、14B 文本模型及 8B 視覺語言模型。

為什麼重要

這條新聞值得關注,因為Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

NVIDIA 近日釋出了 Nemotron-Labs 擴散語言模型系列,旨在突破傳統大型語言模型(LLM)逐 token 生成的效能瓶頸。傳統自迴歸模型雖然穩定高效,但每個新 token 都需要完整的模型前向傳播,導致視訊記憶體頻寬成為主要限制因素。對於延遲敏感型應用、小批次推理或希望充分利用現代 GPU 計算能力的開發者而言,逐 token 生成往往無法發揮硬體的全部潛力,因為 GPU 的大部分時間都花在記憶體操作上,而非實際計算。此外,自迴歸模型一旦生成某個 token 就無法修正,錯誤會逐級傳播。

擴散語言模型(DLM)為解決這些問題提供了新思路:它能夠並行生成多個 token,然後透過多次迭代逐步精煉。這種方法不僅能充分利用 GPU 的計算能力,顯著提升執行時效能,還能對已生成的 token 進行修訂,特別適合文本修改和中間填充任務。更重要的是,這種“生成-精煉”特性使得推理預算可控:透過減少精煉步數,可以降低模型的計算需求。

Nemotron-Labs Diffusion 的核心創新在於將自迴歸與擴散能力整合到同一模型中,支援三種推理模式:標準自迴歸模式保持與現有工作流完全相容,開發者無需修改程式碼即可切換;擴散模式以 32 token 為一個塊進行並行生成和迭代去噪,大幅提升吞吐量;自推測模式則先由擴散生成候選 token,再由自迴歸驗證,兼具速度和可靠性。這種靈活的設計讓開發者可以在部署時透過簡單的配置選擇模式,無需更改應用層程式碼。

效能方面,8B 模型在多項基準測試中平均準確率比 Qwen3 8B 高出 1.2%。在推理速度上,以 tokens per forward pass (TPF) 衡量,擴散模式達到自迴歸的 2.6 倍,線性自推測模式達到 6 倍,二次自推測模式達到 6.4 倍。這些提升在低批次甚至單查詢場景下尤為顯著。訓練方面,模型基於 NVIDIA Nemotron 預訓練資料集,使用 1.3 萬億 token 進行聯合自迴歸與擴散目標預訓練,隨後在 45B token 的監督微調資料上進一步最佳化。該方法從預訓練的自迴歸模型出發,透過改進注意力機制為塊狀結構,保留原有能力的同時新增並行解碼能力。

Nemotron-Labs Diffusion 系列已在 HuggingFace 開源,包括 3B、8B 和 14B 文本模型及 8B 視覺語言模型(VLM),採用 NVIDIA Nemotron 開放模型許可證(商用友好)。推理支援即將整合至 SGLang 主分支,開發者可透過一行配置切換模式。例如,設定 ar_mode=true 執行純自迴歸模式;設定 fast_diffuser 啟動擴散模式;設定 linear_spec 啟用自推測模式。在 B200 上,自推測模式可達約 865 tok/s,約為純自迴歸的 4 倍。無論是構建延遲敏感型應用還是最佳化推理成本,Nemotron-Labs Diffusion 都提供了一種新的加速方案,無需改變現有應用。