2026-05-16 16:52 UTC+9サイト内リライト4 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA、SANA-WMを発表：2.6Bパラメータのオープンソース世界モデル、単一GPUで720p動画を分単位生成

NVIDIAのSANA-WMはオープンソースの世界モデルで、1枚の画像とカメラ軌跡から60秒の720p動画を生成。訓練は64基のH100 GPUで行い、推論は単一GPUで実行可能。蒸留版は単一のRTX 5090で34秒で60秒の720p動画を生成する。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

SANA-WMは1枚の画像と6自由度カメラ軌跡から60秒の720p動画を生成。
ハイブリッド線形注意機構（Gated DeltaNet）と二重分岐カメラ制御により、効率的な長系列生成を実現。
先行モデル比36倍のスループットを達成し、推論は単一GPUで動作。
オープンソースで公開。蒸留版は単一RTX 5090上で60秒動画を34秒で生成。

重要な理由

このニュースが重要なのは、SANA-WMは1枚の画像と6自由度カメラ軌跡から60秒の720p動画を生成ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

世界モデル（初期画像とアクション系列から現実的なビデオシーケンスを合成するシステム）は、具現化AI、シミュレーション、ロボティクス研究の中心になりつつあります。核心的な課題は、これらのシステムをスケーリングして、分単位の高解像度ビデオを生成できるようにすることですが、そのためには訓練と推論の両方で膨大なクラスターが必要になることが妨げとなります。ほとんどの競合するオープンソースベースラインは、マルチGPU推論を必要とするか、計算予算に収めるために解像度を犠牲にしています。

NVIDIAのSANA-WMは、これらのボトルネックに直接対処します。このモデルはSANA-Videoコードベース上に構築され、NVlabs/Sana GitHubリポジトリから入手可能です。26億パラメータの拡散Transformer（DiT）で、ネイティブに1分間の720p生成とメートルスケールの6自由度カメラ制御をサポートします。単一GPU推論の3つのバリアント（双方向生成器、チャンク因果自己回帰生成器、数ステップ蒸留自己回帰生成器）を提供します。蒸留バリアントは、単一のRTX 5090上でNVFP4量子化を使用し、60秒の720pクリップを34秒でデノイズします。

アーキテクチャ：4つの中核設計

ハイブリッド線形注意機構とGated DeltaNet（GDN）

標準的なソフトマックス注意機構は、シーケンス長に対してメモリと計算が2次関数的に増加します。60秒の720pビデオで961の潜在フレームを生成する場合、これは深刻な問題です。前身のSANA-Videoは、累積ReLUベースの線形注意機構を使用しており、一定サイズのリカレント状態を維持しますが、減衰機構がなく、すべての過去フレームが同等の重みで蓄積され、分単位のシーケンスでドリフトが発生します。

SANA-WMは、フレーム単位のGated DeltaNet（GDN）でほとんどの注意ブロックを置き換えます。言語モデルで使用されるトークン単位のGDNとは異なり、SANA-WMのフレーム単位バリアントは、リカレントステップごとに1つの潜在フレーム全体を処理します。GDN更新ルールは、減衰ゲートγ（古い過去フレームの重みを下げる）とデルタルール補正（目標値と現在の状態予測の残差のみを更新）を組み込み、リカレント状態をビデオ長に関係なくD×Dの一定サイズに保ちます。

訓練を安定させるため、研究チームは代数的キースケーリングを導入：キーは1/√(D·S)でスケーリング（Dはヘッド次元、Sはフレームあたりの空間トークン数）。これにより遷移行列のスペクトルノルムが有界に保たれ、標準的なL2キー正規化やスケーリングなしで観測されたNaN発散イベントを排除します。

最終的なバックボーンは、20のトランスフォーマーブロック中で15のフレーム単位GDNブロックと5つのソフトマックス注意ブロックを交互に配置。ソフトマックスブロックは、GDNのリカレンスだけでは不十分な場合の正確な長距離呼び出しを提供します。

二重分岐カメラ制御

カメラ制御された世界モデルは、テキストによる動きの記述に合わせるだけでなく、連続的な6自由度軌道に忠実に従う必要があります。SANA-WMは、異なる時間レートで動作する2つの相補的分岐を使用します：

粗い分岐（UCPE注意）：潜在フレームレートで動作。各潜在トークンについて、カメラから世界への姿勢と内部パラメータからレイローカルカメラ基底を計算し、各注意ヘッドの幾何学的チャネルに統合カメラ位置符号化（UCPE）を適用。これによりシーケンス全体の大域軌道構造を捕捉。

細かい分岐（Plücker混合）：圧縮ミスマッチに対処。各潜在トークンは8つの生フレームを要約し、各フレームは独自のカメラ姿勢を持つ。細かい分岐は、1つのVAE時間ストライド内のすべての8つの生フレームからピクセル単位のPlückerレイマップ（6D表現）を計算し、48チャネルテンソルにパックし、ゼロ初期化射影を介して各自己注意出力の後にこの埋め込みを注入。これにより、粗い分岐が潜在フレーム解像度で見ることができないフレーム内カメラ動作を復元。

OmniWorldでのアブレーション研究では、いずれか一方の分岐だけでは二重分岐法に及ばないことが示されています。

二段階生成パイプライン

段階1のSANA-WM出力は時空間的に一貫していますが、長いシーケンスで構造的アーティファクトを含む可能性があります。第2段階のリファイナーは、17BパラメータのLTX-2モデルから初期化され、ランク384のLoRAアダプターでペアの合成および実ビデオデータにファインチューニングされ、これらのアーティファクトを修正します。切り詰めσフローマッチングを使用。段階1の潜在変数は大きな開始ノイズで摂動され、リファイナーはこのノイズ入力を高忠実度ターゲットにマッピングすることを学習。推論時には3ステップのオイラーデノイジングのみが必要。リファイナーは長期的な視覚的ドリフトを大幅に低減します。

ロバストなデータアノテーションパイプライン

カメラ制御ビデオ生成の訓練には、標準的なビデオデータセットでは利用できないメートルスケールの6自由度ポーズアノテーションが必要です。研究チームはVIPE（カメラポーズアノテーションエンジン）を変更し、深度バックエンドをPi3X（長シーケンス一貫深度用）とMoGe-2（正確なフレーム単位メートルスケール用）の融合に置き換えました。また、バンドル調整段階を拡張し、焦点距離と主点を共有のグローバル内部パラメータではなくフレーム単位の変数として扱うことで、焦点距離が変化するインターネットビデオでよりロバストなアノテーションを可能にしました。

結果として得られるパイプラインは、複数のオープンソースソースから7つの訓練コーパスエントリを処理し、合計212,975クリップのメートルスケールポーズアノテーションを生成します。

ベンチマーク結果

研究チームは、80の初期シーンからなる60秒世界モデルベンチマークを新たに構築。各シーンはSimpleおよびHardのカメラ軌道分割とペアリング。主な評価は、各モデルのマルチステップ、非蒸留自己回帰設定を使用。

このベンチマークにおいて、SANA-WMは第2段階リファイナーと組み合わせることで、両方の分割で最高の結果を達成：カメラ精度、視覚品質、スループット（比較対象のLingBot-World比36倍）、時間安定性。完全なパイプラインは80GB H100メモリに収まります。

詳細は論文およびプロジェクトページを参照してください。