NVIDIA釋出Cosmos 3:雙塔混合變換器基礎模型,統一物理推理、世界生成與動作生成
NVIDIA推出了Cosmos 3系列開放全模態世界模型,透過雙塔混合變換器架構統一物理推理、世界生成和動作生成。該模型家族包括Edge、Nano和Super三種規模,為機器人、自動駕駛和倉庫監控等物理AI應用提供統一解決方案。NVIDIA開源了模型權重、訓練指令碼、部署工具和資料集,採用OpenMDW-1.1許可證。在多項基準測試中,Cosmos 3在推理和生成任務上均取得領先成績。
NVIDIA AI團隊近日釋出了Cosmos 3,這是一系列面向物理AI的全模態世界模型。Cosmos 3的創新之處在於將物理推理、世界生成和動作生成三大能力整合到一個統一的開源模型中。該模型的釋出面向機器人、自動駕駛汽車和倉庫監控等領域的開發團隊。
物理AI系統需要在行動之前理解世界。機器人和車輛需要感知、預測,然後採取行動。早期的Cosmos版本將這些任務分散到不同的模型中。而Cosmos 3透過混合變換器(Mixture-of-Transformers, MoT)架構實現了統一。該架構基於兩個核心模組:推理器(Reasoner Tower)和生成器(Generator Tower)。
推理器是一個視覺語言模型(VLM),採用自迴歸架構處理影像、影片和文本,能夠理解運動、物體互動等物理上下文。NVIDIA團隊將其描述為模型的“大腦”。生成器則基於擴散過程,生成符合物理規律的影片和動作序列,其輸出以推理器的理解為條件。資訊從推理器單向流向生成器,推理器可獨立執行,而生成器需要兩個模組協同工作。
Cosmos 3家族包含三種規模:Cosmos3-Nano(16B引數,基礎變換器為8B)、Cosmos3-Super(64B引數,基礎變換器為32B),以及計劃中的Cosmos3-Edge(4B引數)。Nano針對工作站GPU(如NVIDIA RTX PRO 6000)最佳化,適用於即時機器人應用;Super面向資料中心GPU(包括NVIDIA Hopper和Blackwell),適合大規模合成資料生成和高階推理。此外,還發布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任務特定變體。
在統一設計上,兩個模組共享同一個變換器架構和聯合注意力運算元,採用三維多模態旋轉位置編碼(mRoPE)將影片、音訊和動作標記對齊到同一時間軸。推理模式下,標記透過因果自注意力進行下一標記預測;生成模式下,噪聲標記透過全注意力進行去噪。模型將動作作為核心模態,支援文本、影像、影片和JSON動作陣列輸入,輸出包括影像、影片、同步聲音、動作狀態和文本。生成支援256p、480p和720p解析度,幀數從5到300幀不等(預設189幀,約7.9秒)。聲音生成為48kHz立體聲AAC。動作條件涵蓋攝像頭、車輛、第一人稱、單臂、雙臂和人形等多種具身形態。
在基準測試方面,Cosmos 3表現優異。推理方面,Super和Nano在各自規模上領先VANTAGE-Bench,並在交通異常推理(TAR)排行榜上位居榜首,TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面,NVIDIA報告了開源模型的領先結果:在R-Bench上達到開源SOTA,在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上領先,並在Artificial Analysis文本到影像和影像到影片的無音訊排行榜上佔據領先位置。
NVIDIA還引入了Cosmos人類評估框架HUE,透過將每個生成影片分解為“是/否”事實問題,從語義對齊、物理定律、幾何推理和視覺完整性四個維度評估影片質量,覆蓋七個物理AI領域。
Cosmos 3以OpenMDW-1.1許可證開源,包含Nano、Super及任務特定變體的模型權重,六個用於機器人、物理、空間推理、人體運動、駕駛和倉庫的SDG資料集,以及訓練配方(包括SFT和動作後訓練)。部署方面,提供NIM微服務(推理器NIM現可用,生成器NIM待發布),支援BF16、FP8和NVFP4量化(NVFP4可帶來高達2倍加速),推理器NIM基於vLLM構建,並提供高效影片取樣(EVS)以減少推理時冗餘影片標記。
儘管功能強大,Cosmos 3仍存在一些侷限性,如輸出可能出現時間不一致、運動不穩定、物體變形、3D結構不準確以及音影片不同步等問題。在安全關鍵控制應用中,需要額外的驗證、護欄和系統級分析。