NVIDIA、Cosmos 3を公開:ツインタワー・ミクスチャー・オブ・トランスフォーマーによる物理推論、世界生成、行動生成を統合した基盤モデル
NVIDIAは、物理AI向けのオープンな全モーダル世界モデル「Cosmos 3」ファミリーを公開した。2つのタワーからなるMixture-of-Transformersアーキテクチャを採用し、自己回帰型VLM推論器と拡散生成器を組み合わせることで、物理推論、世界生成、行動生成を1つのモデルで統合。Edge、Nano、Superの3スケールを提供し、ロボティクス、自動運転車、倉庫監視などに対応。OpenMDW-1.1ライセンスで、チェックポイント、トレーニングスクリプト、デプロイツール、データセットをオープンソース化。複数のベンチマークで最先端の成果を達成。
NVIDIA AIチームは、物理AIのためのオムニモーダル世界モデル「Cosmos 3」ファミリーを発表しました。Cosmos 3は、物理推論、世界生成、行動生成の3つの能力を1つのオープンモデルに統合したものです。このリリースは、ロボティクス、自動運転車、倉庫監視チームを対象としています。
物理AIシステムは、行動する前に世界を理解する必要があります。ロボットや車両は知覚、予測、そして行動を行わなければなりません。初期のCosmosリリースではこれらのジョブを別々のモデルに分割していましたが、Cosmos 3はMixture-of-Transformers(MoT)アーキテクチャで統合しました。このアーキテクチャは2つのタワーから構成されます。
推論器タワーは視覚言語モデル(VLM)で、画像、動画、テキストを自己回帰アーキテクチャで解釈します。動きや物体の相互作用など物理的なコンテキストを理解します。NVIDIAチームはこのタワーをモデルの「脳」と呼んでいます。生成器タワーは拡散ベースのプロセスで、物理的に整合性のある動画とアクションシーケンスを生成します。これらの出力は推論器タワーの理解に基づいて条件付けられます。情報は推論器から生成器へ一方向に流れ、推論器は単独で動作可能ですが、生成器は両方のタワーを活性化してガイド付き生成を行います。
モデルファミリーとして、Edge、Nano、Superの3スケールが用意されています。各モデルはデュアルタワーのMixture-of-Transformers設計を採用し、両タワーは事前学習済みのQwen3-VLウェイトから初期化されます。Cosmos3-Nanoは16Bモデル(ベースは8B変圧器)で、ワークステーションGPU(NVIDIA RTX PRO 6000など)でのリアルタイムロボティクスに適しています。Cosmos3-Superは64Bモデル(ベースは32B変圧器)で、データセンターGPU(NVIDIA HopperおよびBlackwell)向けに大規模合成データ生成や高度な推論をターゲットとしています。今回のリリースではNanoとSuper、およびSuper Text2Image、Super Image2Video、Nano-Policy-DROIDなどのタスク固有バリアントが含まれます。
統合設計では、両タワーが1つの変圧器アーキテクチャと共同注意演算子を共有し、3Dマルチモーダル回転位置埋め込み(mRoPE)を使用して動画、音声、行動トークンを1つの時間軸に整列させます。推論モードではトークンが因果的セルフアテンションを通り、次のトークン予測が可能になります。生成モードではノイズを含むトークンがフルアテンションでデノイズされます。自己回帰トークンは拡散トークンによって更新されることはありません。
モデルは行動をコアモダリティとして扱い、専用の行動トークンを備えています。入力はテキスト、画像、動画、JSONアクション配列をサポートし、出力は画像、動画、同期音声、行動状態、テキストです。生成解像度は256p、480p、720pの3段階で、フレーム数は5〜300(デフォルト189、約7.9秒@24FPS)です。音声は48kHzのステレオAACで生成されます。行動条件付けはカメラ、車両、エゴセントリック、単腕、両腕、ヒューマノイドの各形態をカバーします。
ベンチマークでは、Cosmos 3は推論と生成の両方で優れた結果を示しています。推論ではSuperとNanoがそれぞれの規模でVANTAGE-Benchをリードし、交通異常推論(TAR)リーダーボードでトップを獲得しました。TARはAI City Challenge 2026 Track 3の公式リーダーボードです。生成では、R-BenchでオープンソースSOTA、PAI-Bench、Physics-IQ、RoboLabの公開リーダーボードでトップ、Artificial Analysisのテキストから画像および画像から動画(音声なし)のリーダーボードでトップを獲得しています。
NVIDIAはまた、Cosmos Human Evaluation(HUE)フレームワークを導入しました。HUEは生成された動画を「はい/いいえ」の事実質問に分解し、7つの物理AIドメインにわたる4つの次元(意味的整合性、物理法則、幾何学的推論、視覚的完全性)をスコアリングします。質問はVLMパイプラインで作成され、人間の専門家が洗練します。
Cosmos 3はOpenMDW-1.1ライセンスでオープンソース化され、Nano、Superおよびタスク固有バリアントのチェックポイント、6つのSDGデータセット(ロボティクス、物理、空間推論、人体動作、運転、倉庫)、トレーニングレシピ(SFT+アクション後トレーニング)、デプロイツールが含まれます。NIMマイクロサービス(推論器NIMは利用可能、生成器NIMは後日)も提供され、BF16、FP8、NVFP4量子化をサポートし、NVFP4は最大2倍の高速化を実現します。ただし、出力に時間的不整合、不安定な動き、オブジェクトのモーフィング、不正確な3D構造、音声と動画のミスアライメントなどの制限があるため、安全重視の制御には追加の検証とガードレールが必要です。