AI News HubLIVE
站内改写

Nemotron-Labs 拡散言語モデルによる光速に迫るテキスト生成

NVIDIA が Nemotron-Labs 拡散言語モデルシリーズを発表。トークンを並列生成し反復的に洗練する手法により、従来の自己回帰モデルと比較して最大 6.4 倍の推論速度向上と高い精度を実現。8B モデルは Qwen3 8B を精度で 1.2% 上回る。

記事インテリジェンス

エンジニア上級

要点

  • 3つの生成モード(自己回帰、拡散、自己推測)をサポート。
  • 8B モデルは拡散モードで 2.6 倍、自己推測モードで最大 6.4 倍の速度向上。
  • 事前学習済み自己回帰モデルをベースに、結合学習により拡散能力を追加。
  • HuggingFace でオープンソース公開。3B、8B、14B のテキストモデルと 8B の視覚言語モデルを含む。

重要な理由

このニュースが重要なのは、3つの生成モード(自己回帰、拡散、自己推測)をサポートためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

NVIDIA は、大規模言語モデル(LLM)の逐次トークン生成による性能制約を打破するため、Nemotron-Labs 拡散言語モデルシリーズを発表しました。従来の自己回帰(AR)モデルは訓練が安定し、サービングも容易ですが、新しいトークンごとに全モデルパスが必要で、メモリ帯域幅が主なボトルネックとなっています。特にレイテンシに敏感なアプリケーションや小バッチ処理では、GPU の計算能力を十分に活用できず、大部分の時間がメモリアクセスに費やされます。また、AR モデルでは一度生成されたトークンを修正できず、誤りが伝播する可能性があります。

拡散言語モデル(DLM)は、複数のトークンを並列生成し、複数ステップで反復的に洗練することで、これらの問題に対処します。この手法は GPU の計算モデルに適しており、実行時性能を大幅に向上させるだけでなく、生成済みトークンの修正も可能にします。特にテキストの改訂や穴埋めタスクに適しており、さらに精錬ステップ数を減らすことで推論コストを制御できます。

Nemotron-Labs Diffusion の最大の革新は、自己回帰と拡散の両機能を同一モデルに統合した点にあります。モデルは 3 つの推論モードをサポートします:標準的な左から右への自己回帰モード(既存ワークフローとの互換性維持)、32 トークンのブロック単位で並列生成・段階的デノイジングを行う拡散モード、拡散でトークンをドラフトし自己回帰で検証する自己推測モード。これらのモードはデプロイ時に一行の設定で切り替え可能で、アプリケーションコードの変更は不要です。

性能面では、8B モデルが Qwen3 8B に対して平均精度で 1.2% 向上しています。推論速度(トークン/フォワードパス、TPF)では、拡散モードが AR 比 2.6 倍、線形自己推測で 6 倍、二次自己推測で 6.4 倍を達成し、評価タスク全体で精度は同等です。訓練は NVIDIA Nemotron 事前学習データセットの 1.3 兆トークンを使用し、結合 AR と拡散目的で事前学習、その後 450 億トークンの教師ありデータで微調整されました。既存の AR モデルに拡散機能を追加するため、注意機構をブロック単位に変更し、並列復号化を実現しています。

Nemotron-Labs Diffusion シリーズは HuggingFace でオープンソース公開され、3B、8B、14B のテキストモデルと 8B の視覚言語モデル(VLM)を含みます。ライセンスは商用利用可能な NVIDIA Nemotron オープンモデルライセンスです。SGLang への統合も間もなく行われ、設定ファイルの一行でモードを選択可能です(例:ar_mode=true で純 AR、fast_diffuser で拡散モード、linear_spec で自己推測)。B200 上では自己推測モードで約 865 tok/s を達成し、同じハードウェア上の AR ベースラインの約 4 倍のスループットを実現します。開発者はアプリケーションを変更せずに、これらの高速生成モードを活用できます。