AI News HubLIVE
站内改写3 分で読了

Cosmos 3 が物理AIの行動前思考をどのように支援するか

NVIDIA が発表した Cosmos 3 は、視覚推論、マルチモーダル生成、行動予測を統合したオープンな世界基礎モデルです。ロボット、自動運転車、視覚AIエージェントが現実世界の変化を理解し予測することを可能にし、混合トランスフォーマーアーキテクチャを採用して合成ビデオやロボット動作データなどを生成します。スマートシティから産業オートメーションまで幅広い用途に対応し、複数のベンチマークで首位を獲得。オープンライセンスで提供されています。

ソースNVIDIA Blog著者: Ming-Yu Liu

NVIDIA は、2026年5月31日に台北で開催された COMPUTEX の GTC Taipei にて、物理AI向けの新しい世界基礎モデル「Cosmos 3」を発表しました。このモデルは、視覚推論、テキスト・ビデオ・画像・環境音・動作にわたるマルチモーダル生成、そして行動予測を単一のモデルで統合し、ロボット、自動運転車(AV)、視覚AIエージェントが現実世界で行動する前に、状況を理解し将来を予測することを可能にします。

現実世界は常に動いており、物理AIシステムは単に認識するだけでなく、何が起こったか、次に何が起きるかを理解する必要があります。倉庫のロボットは未見の物体配置に直面するかもしれませんし、路上のAVは駐車車両の間から歩行者が飛び出す状況に対応する必要があります。工場の安全システムはフォークリフトの動きを単に検出するだけでなく、その行き先を予測しなければなりません。しかし、こうしたシナリオを現実世界で捉え再現するのは遅く、高コストで、大規模に繰り返すことは困難です。Cosmos 3 はこの課題に応えます。

Cosmos 3 は混合トランスフォーマー(mixture-of-transformers)アーキテクチャを採用し、まず推論ブロックがシーンで何が起こっているかを解釈し、次に生成ブロックがそのコンテキストを利用して物理的に根拠のある出力(合成ビデオからロボットタスクデータまで)を生成します。多様なデータで訓練された汎用基盤モデルであり、シーン、動作、ロボットアクションの関係を幅広く理解しています。ネイティブな行動生成機能を持ち、関節角度、グリッパー位置、軌跡点などの数値行動データを出力して、ロボットがタスクを完了するための動き方を指示できます。開発者はCosmos 3を微調整し、特定のロボットの形態、カメラ配置、作業空間に特化させることも可能です。

NVIDIA GEAR チームはCosmos 3を活用してビデオ行動モデルを開発し、具現化エージェントがゲーム、シミュレーション、実ロボット環境で推論、移動、行動する能力を向上させています。Agile Robots は人型ロボットThor 3やFR3などの産業用ロボットにCosmos 3を使い、ポリシー開発のための行動条件付きロボットデータを生成し、多様なタスク軌跡を大規模に作成しています。後訓練されたCosmos 3 Nanoモデルは、言語誘導タスクをテストするRoboLabと、実環境のDROIDロボットでポリシーを比較するRoboArenaで高いパフォーマンスを示しています。

さらにCosmos 3はスマートシティや動く空間の推論にも応用できます。シーン内の移動物体を識別し、経路の交差や将来状態を予測し、密集したキャプションやシーン変化のバリエーションを生成することで、産業・インフラ環境における視覚AIエージェントの理解、予測、警告を支援します。Linker Vision はCosmos 3の視覚言語推論能力を活用し、ライブカメラストリームから空間コンテキストを理解し、数千のフィードから洞察を抽出して根本原因分析を実施、都市運用を最適化しています。Cosmos 3はスマートインフラシーン理解ベンチマークVANTAGE-Benchと交通異常推論チャレンジTARで首位を獲得しています。

衝突やロングテールのエッジケースは、人型ロボットやアームロボット、手術ロボットを現実世界に備えさせる上で最も重要な事例ですが、安全かつ反復可能に大規模にキャプチャするのは困難です。Cosmos 3はビデオ基礎モデルとして物理的に妥当なビデオシーケンスを生成し、現実世界が時間とともに変化する様子を学習するのに役立ちます。物理AI開発者は、生成された事例を合成データワークフローや将来状態予測に活用でき、フレームごとに変化する条件にも対応可能です。Cosmos 3のバリアントは Artificial Analysis の公開ウェイトリーダーボードで首位を獲得し、Physics-IQ、R-Bench、PAI-Benchなどの世界生成ベンチマークでもトップにランクされています。

開発者は build.nvidia.com でCosmos 3を試し、Hugging Face からオープンモデルをダウンロードし、GitHub 上のリソースでカスタマイズや合成データ生成を行い、NVIDIA NIM マイクロサービスでデプロイできます。Cosmos 3は Linux Foundation の OpenMDW 1.1 ライセンスの下で提供され、ウェイト、アーキテクチャ、ドキュメント、データセット、ベンチマーク、コードを含むモデル素材を、単一のモデル中心ライセンスで訓練、修正、貢献、再配布、デプロイできます。