2026-05-18 17:42 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA、NVFP4を用いた4ビット事前学習手法を発表—12BハイブリッドMamba-Transformerで10Tトークン規模で検証

NVIDIAは、Blackwell Tensor Coreでネイティブサポートされる4ビットマイクロスケーリングフォーマットNVFP4を基盤とした事前学習手法を発表。120億パラメータのハイブリッドMamba-Transformerを10兆トークンで訓練し、MMLU-ProでFP8ベースラインの62.62%に対し62.58%とほぼ同等の精度を達成。線形層のGEMMのみをNVFP4で量子化し、その他はBF16/FP32を維持。選択的高精度層、ランダムアダマール変換、2Dウェイトスケーリング、確率的丸めの4手法で収束を実現。MXFP4と比較して同トークン数で低損失、GB300でFP8比3倍のスループット向上。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

NVFP4はBlackwell Tensor Coreネイティブの4ビットマイクロスケーリング形式で、線形層GEMMのみを4ビット量子化。
12BハイブリッドMamba-Transformerを10Tトークンで訓練し、MMLU-Pro 62.58% vs FP8 62.62%とほぼ無損失。
収束に必要な4手法：選択的BF16層（～16%）、16×16ランダムアダマール変換、2Dウェイトブロックスケーリング、勾配の確率的丸め。
NVFP4はMXFP4より同トークン数で低損失（1Tトークン後相対損失差1.5% vs 2.5%）、GB300でFP8比最大3倍のスループット。

重要な理由

このニュースが重要なのは、NVFP4はBlackwell Tensor Coreネイティブの4ビットマイクロスケーリング形式で、線形層GEMMのみを4ビット量子化ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIAは、BlackwellアーキテクチャのTensor Coreがネイティブでサポートする4ビットマイクロスケーリングフォーマット「NVFP4」を用いた大規模言語モデルの事前学習手法を発表した。本手法は、120億パラメータのハイブリッドMamba-Transformerモデルを10兆トークンで訓練することにより検証され、これは公開文献上最長の4ビット精度での訓練実行である。結果として、MMLU-Pro（5-shot）で62.58%の精度を達成し、FP8ベースラインの62.62%にほぼ匹敵する性能を示した。

NVFP4の核心はマイクロスケーリング設計にある。MXFP4が32要素ブロックとUE8M0スケール因子を用いるのに対し、NVFP4は16要素ブロックとE4M3スケール因子を採用し、さらにFP32のテンソル単位スケールを追加する。これにより各ブロック内の少なくとも6.25%の値（ブロック内絶対最大値）がFP8近傍の精度で表現され、残りは4ビット精度となる。Blackwell GPUでは、FP4行列積（GEMM）のスループットはBF16の4倍（GB200）または6倍（GB300）に達し、FP8と比較してそれぞれ2倍、3倍の高速化に相当する。

注目すべきは、4ビット訓練が全グラフに適用されるわけではない点である。NVFP4で量子化されるのは線形層のFprop、Dgrad、Wgradの3つのGEMMのみであり、埋め込み層、出力ヘッド、正規化層、非線形活性化関数、注意機構内のソフトマックスやQK/V行列積はBF16またはFP32で保持される。マスターウェイトや最適化器状態はFP32で管理される。この選択的量子化戦略が効率と精度のバランスを実現している。

収束を保証するために、研究チームは4つの重要な手法を導入した。第一に、選択的高精度化：約16%の線形層（最初の2ブロックと最後の8ブロック）をBF16に維持する。最後のブロックは動的範囲の要求が高いためである。第二に、ランダムアダマール変換（RHT）：重み勾配計算の入力に16×16アダマール行列とランダムな±1符号ベクトルを適用し、外れ値をほぼガウス分布に分散させる。数学的な補正は不要である。第三に、2次元重みブロックスケーリング：重みに16×16ブロックスケーリングを用いることで、前向きと逆向きで同じ量子化表現が使われ、重み転置による連鎖律の破れを防ぐ。第四に、勾配の確率的丸め：四捨五入を確率的に置き換え、系統的バイアスを除去する。アブレーション研究により、各要素が不可欠であることが確認されている。

性能比較では、8BモデルにおいてNVFP4は1TトークンでBF16比相対損失差約1.5%を達成したのに対し、MXFP4は同損失に達するまでに1.36Tトークン（36%増）を要した。12Bモデルでは、NVFP4の検証損失は安定フェーズでFP8の1%以内、減衰フェーズで1.5%超に留まった。下流ベンチマークでは多くのタスクでFP8と同等の結果を得たが、HumanEval+やMBPP+などのコーディングタスクではやや劣る（それぞれ2.5ポイント、3.2ポイント差）。研究チームはこれを最終チェックポイント評価のノイズによるものとしている。また、訓練後期に順伝搬をBF16に切り替える精度スイッチング手法により、相対損失誤差を1.5%から0.5%に低減できることも示された。

NVIDIAはTransformer EngineでNVFP4をサポートしており、本技術は大規模AI訓練の計算コストとメモリ使用量を大幅に削減しつつ、モデル品質を維持する道を開く。より長いコンテキストや大規模なモデルの訓練に重要な進展である。