2026-06-03 17:35 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA、Cosmos 3を公開：ツインタワー・ミクスチャー・オブ・トランスフォーマーによる物理推論、世界生成、行動生成を統合した基盤モデル

NVIDIAは、物理AI向けのオープンな全モーダル世界モデル「Cosmos 3」ファミリーを公開した。2つのタワーからなるMixture-of-Transformersアーキテクチャを採用し、自己回帰型VLM推論器と拡散生成器を組み合わせることで、物理推論、世界生成、行動生成を1つのモデルで統合。Edge、Nano、Superの3スケールを提供し、ロボティクス、自動運転車、倉庫監視などに対応。OpenMDW-1.1ライセンスで、チェックポイント、トレーニングスクリプト、デプロイツール、データセットをオープンソース化。複数のベンチマークで最先端の成果を達成。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

Cosmos 3は、ツインタワーMixture-of-Transformersアーキテクチャにより、物理推論、世界生成、行動生成を1つのオープンモデルで統合。
3つのスケールを提供：ワークステーション向けCosmos3-Nano（16B）、データセンター向けCosmos3-Super（64B）、今後リリース予定のCosmos3-Edge（4B）。
VANTAGE-BenchやTARなどの推論ベンチマーク、R-BenchやArtificial Analysisなどの生成ベンチマークでオープンソースSOTAを達成。
チェックポイント、6つのSDGデータセット、トレーニングレシピ、HUE評価フレームワークをオープンソース化。

重要な理由

このニュースが重要なのは、Cosmos 3は、ツインタワーMixture-of-Transformersアーキテクチャにより、物理推論、世界生成、行動生成を1つのオープンモデルで統合ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIA AIチームは、物理AIのためのオムニモーダル世界モデル「Cosmos 3」ファミリーを発表しました。Cosmos 3は、物理推論、世界生成、行動生成の3つの能力を1つのオープンモデルに統合したものです。このリリースは、ロボティクス、自動運転車、倉庫監視チームを対象としています。

物理AIシステムは、行動する前に世界を理解する必要があります。ロボットや車両は知覚、予測、そして行動を行わなければなりません。初期のCosmosリリースではこれらのジョブを別々のモデルに分割していましたが、Cosmos 3はMixture-of-Transformers（MoT）アーキテクチャで統合しました。このアーキテクチャは2つのタワーから構成されます。

推論器タワーは視覚言語モデル（VLM）で、画像、動画、テキストを自己回帰アーキテクチャで解釈します。動きや物体の相互作用など物理的なコンテキストを理解します。NVIDIAチームはこのタワーをモデルの「脳」と呼んでいます。生成器タワーは拡散ベースのプロセスで、物理的に整合性のある動画とアクションシーケンスを生成します。これらの出力は推論器タワーの理解に基づいて条件付けられます。情報は推論器から生成器へ一方向に流れ、推論器は単独で動作可能ですが、生成器は両方のタワーを活性化してガイド付き生成を行います。

モデルファミリーとして、Edge、Nano、Superの3スケールが用意されています。各モデルはデュアルタワーのMixture-of-Transformers設計を採用し、両タワーは事前学習済みのQwen3-VLウェイトから初期化されます。Cosmos3-Nanoは16Bモデル（ベースは8B変圧器）で、ワークステーションGPU（NVIDIA RTX PRO 6000など）でのリアルタイムロボティクスに適しています。Cosmos3-Superは64Bモデル（ベースは32B変圧器）で、データセンターGPU（NVIDIA HopperおよびBlackwell）向けに大規模合成データ生成や高度な推論をターゲットとしています。今回のリリースではNanoとSuper、およびSuper Text2Image、Super Image2Video、Nano-Policy-DROIDなどのタスク固有バリアントが含まれます。

統合設計では、両タワーが1つの変圧器アーキテクチャと共同注意演算子を共有し、3Dマルチモーダル回転位置埋め込み（mRoPE）を使用して動画、音声、行動トークンを1つの時間軸に整列させます。推論モードではトークンが因果的セルフアテンションを通り、次のトークン予測が可能になります。生成モードではノイズを含むトークンがフルアテンションでデノイズされます。自己回帰トークンは拡散トークンによって更新されることはありません。

モデルは行動をコアモダリティとして扱い、専用の行動トークンを備えています。入力はテキスト、画像、動画、JSONアクション配列をサポートし、出力は画像、動画、同期音声、行動状態、テキストです。生成解像度は256p、480p、720pの3段階で、フレーム数は5〜300（デフォルト189、約7.9秒@24FPS）です。音声は48kHzのステレオAACで生成されます。行動条件付けはカメラ、車両、エゴセントリック、単腕、両腕、ヒューマノイドの各形態をカバーします。

ベンチマークでは、Cosmos 3は推論と生成の両方で優れた結果を示しています。推論ではSuperとNanoがそれぞれの規模でVANTAGE-Benchをリードし、交通異常推論（TAR）リーダーボードでトップを獲得しました。TARはAI City Challenge 2026 Track 3の公式リーダーボードです。生成では、R-BenchでオープンソースSOTA、PAI-Bench、Physics-IQ、RoboLabの公開リーダーボードでトップ、Artificial Analysisのテキストから画像および画像から動画（音声なし）のリーダーボードでトップを獲得しています。

NVIDIAはまた、Cosmos Human Evaluation（HUE）フレームワークを導入しました。HUEは生成された動画を「はい/いいえ」の事実質問に分解し、7つの物理AIドメインにわたる4つの次元（意味的整合性、物理法則、幾何学的推論、視覚的完全性）をスコアリングします。質問はVLMパイプラインで作成され、人間の専門家が洗練します。

Cosmos 3はOpenMDW-1.1ライセンスでオープンソース化され、Nano、Superおよびタスク固有バリアントのチェックポイント、6つのSDGデータセット（ロボティクス、物理、空間推論、人体動作、運転、倉庫）、トレーニングレシピ（SFT＋アクション後トレーニング）、デプロイツールが含まれます。NIMマイクロサービス（推論器NIMは利用可能、生成器NIMは後日）も提供され、BF16、FP8、NVFP4量子化をサポートし、NVFP4は最大2倍の高速化を実現します。ただし、出力に時間的不整合、不安定な動き、オブジェクトのモーフィング、不正確な3D構造、音声と動画のミスアライメントなどの制限があるため、安全重視の制御には追加の検証とガードレールが必要です。