AI News HubLIVE
站内改写2 分鐘閱讀

NVIDIA發佈Cosmos 3:雙塔混合變換器基礎模型,統一物理推理、世界生成與動作生成

NVIDIA推出了Cosmos 3系列開放全模態世界模型,通過雙塔混合變換器架構統一物理推理、世界生成和動作生成。該模型家族包括Edge、Nano和Super三種規模,為機器人、自動駕駛和倉庫監控等物理AI應用提供統一解決方案。NVIDIA開源了模型權重、訓練腳本、部署工具和數據集,採用OpenMDW-1.1許可證。在多項基準測試中,Cosmos 3在推理和生成任務上均取得領先成績。

來源MarkTechPost作者: Asif Razzaq

NVIDIA AI團隊近日發佈了Cosmos 3,這是一系列面向物理AI的全模態世界模型。Cosmos 3的創新之處在於將物理推理、世界生成和動作生成三大能力整合到一個統一的開源模型中。該模型的發佈面向機器人、自動駕駛汽車和倉庫監控等領域的開發團隊。

物理AI系統需要在行動之前理解世界。機器人和車輛需要感知、預測,然後採取行動。早期的Cosmos版本將這些任務分散到不同的模型中。而Cosmos 3通過混合變換器(Mixture-of-Transformers, MoT)架構實現了統一。該架構基於兩個核心模塊:推理器(Reasoner Tower)和生成器(Generator Tower)。

推理器是一個視覺語言模型(VLM),採用自迴歸架構處理圖像、視頻和文本,能夠理解運動、物體交互等物理上下文。NVIDIA團隊將其描述為模型的“大腦”。生成器則基於擴散過程,生成符合物理規律的視頻和動作序列,其輸出以推理器的理解為條件。信息從推理器單向流向生成器,推理器可獨立運行,而生成器需要兩個模塊協同工作。

Cosmos 3家族包含三種規模:Cosmos3-Nano(16B參數,基礎變換器為8B)、Cosmos3-Super(64B參數,基礎變換器為32B),以及計劃中的Cosmos3-Edge(4B參數)。Nano針對工作站GPU(如NVIDIA RTX PRO 6000)優化,適用於實時機器人應用;Super面向數據中心GPU(包括NVIDIA Hopper和Blackwell),適合大規模合成數據生成和高級推理。此外,還發布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任務特定變體。

在統一設計上,兩個模塊共享同一個變換器架構和聯合注意力算子,採用三維多模態旋轉位置編碼(mRoPE)將視頻、音頻和動作標記對齊到同一時間軸。推理模式下,標記通過因果自注意力進行下一標記預測;生成模式下,噪聲標記通過全注意力進行去噪。模型將動作作為核心模態,支持文本、圖像、視頻和JSON動作數組輸入,輸出包括圖像、視頻、同步聲音、動作狀態和文本。生成支持256p、480p和720p分辨率,幀數從5到300幀不等(默認189幀,約7.9秒)。聲音生成為48kHz立體聲AAC。動作條件涵蓋攝像頭、車輛、第一人稱、單臂、雙臂和人形等多種具身形態。

在基準測試方面,Cosmos 3表現優異。推理方面,Super和Nano在各自規模上領先VANTAGE-Bench,並在交通異常推理(TAR)排行榜上位居榜首,TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面,NVIDIA報告了開源模型的領先結果:在R-Bench上達到開源SOTA,在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上領先,並在Artificial Analysis文本到圖像和圖像到視頻的無音頻排行榜上佔據領先位置。

NVIDIA還引入了Cosmos人類評估框架HUE,通過將每個生成視頻分解為“是/否”事實問題,從語義對齊、物理定律、幾何推理和視覺完整性四個維度評估視頻質量,覆蓋七個物理AI領域。

Cosmos 3以OpenMDW-1.1許可證開源,包含Nano、Super及任務特定變體的模型權重,六個用於機器人、物理、空間推理、人體運動、駕駛和倉庫的SDG數據集,以及訓練配方(包括SFT和動作後訓練)。部署方面,提供NIM微服務(推理器NIM現可用,生成器NIM待發布),支持BF16、FP8和NVFP4量化(NVFP4可帶來高達2倍加速),推理器NIM基於vLLM構建,並提供高效視頻採樣(EVS)以減少推理時冗餘視頻標記。

儘管功能強大,Cosmos 3仍存在一些侷限性,如輸出可能出現時間不一致、運動不穩定、物體變形、3D結構不準確以及音視頻不同步等問題。在安全關鍵控制應用中,需要額外的驗證、護欄和系統級分析。