AI News HubLIVE
站内改写

NVIDIA、Nemotron-Labs-Diffusionを発表:Qwen3-8B比6倍のトークン/フォワードを実現するトリモード言語モデル

NVIDIAの研究者が、3つのデコードモードを1つのアーキテクチャに統合したNemotron-Labs-Diffusionモデルファミリーを公開。自己回帰(AR)デコード、拡散ベース並列デコード、自己推測デコードをサポート。3B、8B、14Bのパラメータサイズに加え、ベース、インストラクト、ビジョン言語バリアントを提供。自己推測モードでは、Qwen3-8B比6倍のトークン/フォワードを達成しつつ、高精度を維持。

記事インテリジェンス

エンジニア上級

要点

  • Nemotron-Labs-DiffusionはAR、拡散、自己推測の3つのデコードモードを単一モデルで統合。推論時のアテンションパターン変更のみでモード切替が可能。
  • 8Bスケールの線形自己推測モードで5.99×トークン/フォワード、精度62.81%を達成。Qwen3-8Bをスループットと精度で上回る。
  • トレーニングはARと拡散の結合目的関数(α=0.3)、2段階学習で計1.3Tトークン。Ministral3から初期化し256基のNVIDIA H100 GPUを使用。
  • Hugging Faceでオープンソース公開。3モードに対応したシンプルなAPIを提供。transformers≥5.0.0が必要。

重要な理由

このニュースが重要なのは、Nemotron-Labs-DiffusionはAR、拡散、自己推測の3つのデコードモードを単一モデルで統合。推論時のアテンションパターン変更のみでモード切替が可能ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

NVIDIAの研究チームは、Nemotron-Labs-Diffusionを発表しました。これは、自己回帰(AR)デコード、拡散ベースの並列デコード、自己推測デコードの3つのモードを単一のアーキテクチャに統合した言語モデルファミリーです。モデルは3B、8B、14Bのパラメータサイズで提供され、ベースモデル、指示チューニングモデル、ビジョン言語モデルのバリエーションがあります。

従来のARモデルはトークンを左から右へ逐次生成するため、GPUの並列性が低く、特に低バッチサイズの導入では非効率です。拡散言語モデルは複数のトークンを並列にデノイズすることでスループットを向上できますが、精度で劣ることが課題でした。Nemotron-Labs-Diffusionは、AR損失と拡散損失を結合した目的関数(係数α=0.3)で学習し、両方の長所を活かします。2段階学習では、まず1兆トークンで純粋なAR学習を行い、その後3000億トークンで結合学習を実施。これによりベースラインから16.05%の精度向上を達成しました。モデルはMinistral3ベースモデルから初期化され、256基のNVIDIA H100 GPUで学習されました。

自己推測モードでは、拡散経路でk個の候補トークンを並列生成し、AR経路で因果注意を使って検証、最長一致プレフィックスを採用します。これにより外部ドラフトモデルは不要です。LoRAアダプター(パラメータの0.4%のみ)を拡散ドラフト経路に適用すると、トークン/フォワードがさらに向上:3B、8B、14Bでそれぞれ14.4%、32.5%、27.6%改善され、精度はほぼ不変です。

ベンチマークでは、Nemotron-Labs-Diffusion 8BのARモードは10タスク平均63.61%の精度でQwen3-8B(62.75%)を上回りました。拡散モードは2.57倍のトークン/フォワードで63.18%、LoRA線形自己推測は5.99倍で62.81%を達成。SPEED-Benchでは、線形自己推測がQwen3-8Bの4倍のスループット、Eagle3の2.4倍の速度を実現しました。受容長分析では、NLDの平均受容トークンは5.46(LoRA使用時6.82)で、Eagle3の2.75やQwen3-9B-MTPの4.24を大きく上回ります。

ビジョン言語モデルNemotron-Labs-Diffusion-VLM-8Bも同フレームワークを拡張。線形自己推測モードで3.63倍から7.45倍のトークン/フォワード加速を達成し、精度低下はわずか0.1%です。全モデルはオープンソースで公開され、transformersライブラリを通じて簡単に利用可能。ar_generate()、generate()、linear_spec_generate()の3つのメソッドでモードを切り替えられます。