Cosmos 3:Physical AIのためのオムニモーダル世界モデル
NVIDIAは、言語、画像、ビデオ、音声、アクションシーケンスを統一的に処理・生成するオムニモーダル世界モデル「Cosmos 3」を発表。混合Transformerアーキテクチャを採用し、理解・生成タスクで最先端を達成。Artificial Analysisで最高のオープンソースText-to-ImageおよびImage-to-Videoモデル、RoboArenaで最良のポリシーモデルに選ばれた。コード、モデル、データセットはオープンソースで公開。
NVIDIAの研究チームは、Physical AIのためのオムニモーダル世界モデル「Cosmos 3」を発表しました。Cosmos 3は、混合Transformerアーキテクチャを採用し、言語、画像、ビデオ、音声、アクションシーケンスを統一的に処理・生成します。これにより、視覚言語モデル、ビデオ生成器、世界シミュレータ、世界行動モデルを単一のフレームワークに統合します。Physical AIとは、ロボットや自動運転車など、物理世界を知覚・理解・相互作用するAIシステムを指します。
このモデルは高度に柔軟な入出力構成をサポートし、例えばテキストと画像の組み合わせを入力として、アクションシーケンスやビデオを出力することが可能です。研究チームによると、Cosmos 3は多様な理解・生成タスクで新たな最先端を確立し、オムニモーダル世界モデルが具現化エージェントのためのスケーラブルで汎用的な基盤となり得ることを示しました。テクニカルレポート作成時点で、Cosmos 3はArtificial Analysisにより最高のオープンソースText-to-ImageおよびImage-to-Videoモデル、RoboArenaにより最良のポリシーモデルに選ばれています。
Physical AIの研究と展開を加速するため、NVIDIAはCosmos 3のコード、モデルチェックポイント、厳選された合成データセット、評価ベンチマークをLinux FoundationのOpenMDW-1.1ライセンスの下で公開しています。これらはGitHubやHugging Faceから入手可能で、プロジェクトのウェブサイトも公開されています。このリリースにより、Physical AI分野のイノベーションが促進され、研究の敷居が下がり、関連アプリケーションに強力な基盤モデルが提供されることが期待されます。