2026-06-03 16:35 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA發佈Cosmos 3：雙塔混合變換器基礎模型，統一物理推理、世界生成與動作生成

NVIDIA推出了Cosmos 3系列開放全模態世界模型，通過雙塔混合變換器架構統一物理推理、世界生成和動作生成。該模型家族包括Edge、Nano和Super三種規模，為機器人、自動駕駛和倉庫監控等物理AI應用提供統一解決方案。NVIDIA開源了模型權重、訓練腳本、部署工具和數據集，採用OpenMDW-1.1許可證。在多項基準測試中，Cosmos 3在推理和生成任務上均取得領先成績。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

Cosmos 3採用雙塔混合變換器架構，將自迴歸VLM推理器與擴散生成器結合，實現物理推理、世界生成和動作生成的統一。
提供三種模型規模：Cosmos3-Nano（16B）適用於工作站，Cosmos3-Super（64B）適用於數據中心，Cosmos3-Edge（4B）計劃後期發佈。
在VANTAGE-Bench、TAR、R-Bench等基準上取得開源模型最佳性能，並引入HUE人類評估框架。
開源內容包括模型權重、六個SDG數據集、訓練方法、部署工具以及NIM微服務支持。

為甚麼重要

這條新聞值得關注，因為Cosmos 3採用雙塔混合變換器架構，將自迴歸VLM推理器與擴散生成器結合，實現物理推理、世界生成和動作生成的統一。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

NVIDIA AI團隊近日發佈了Cosmos 3，這是一系列面向物理AI的全模態世界模型。Cosmos 3的創新之處在於將物理推理、世界生成和動作生成三大能力整合到一個統一的開源模型中。該模型的發佈面向機器人、自動駕駛汽車和倉庫監控等領域的開發團隊。

物理AI系統需要在行動之前理解世界。機器人和車輛需要感知、預測，然後採取行動。早期的Cosmos版本將這些任務分散到不同的模型中。而Cosmos 3通過混合變換器（Mixture-of-Transformers, MoT）架構實現了統一。該架構基於兩個核心模塊：推理器（Reasoner Tower）和生成器（Generator Tower）。

推理器是一個視覺語言模型（VLM），採用自迴歸架構處理圖像、視頻和文本，能夠理解運動、物體交互等物理上下文。NVIDIA團隊將其描述為模型的“大腦”。生成器則基於擴散過程，生成符合物理規律的視頻和動作序列，其輸出以推理器的理解為條件。信息從推理器單向流向生成器，推理器可獨立運行，而生成器需要兩個模塊協同工作。

Cosmos 3家族包含三種規模：Cosmos3-Nano（16B參數，基礎變換器為8B）、Cosmos3-Super（64B參數，基礎變換器為32B），以及計劃中的Cosmos3-Edge（4B參數）。Nano針對工作站GPU（如NVIDIA RTX PRO 6000）優化，適用於實時機器人應用；Super面向數據中心GPU（包括NVIDIA Hopper和Blackwell），適合大規模合成數據生成和高級推理。此外，還發布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任務特定變體。

在統一設計上，兩個模塊共享同一個變換器架構和聯合注意力算子，採用三維多模態旋轉位置編碼（mRoPE）將視頻、音頻和動作標記對齊到同一時間軸。推理模式下，標記通過因果自注意力進行下一標記預測；生成模式下，噪聲標記通過全注意力進行去噪。模型將動作作為核心模態，支持文本、圖像、視頻和JSON動作數組輸入，輸出包括圖像、視頻、同步聲音、動作狀態和文本。生成支持256p、480p和720p分辨率，幀數從5到300幀不等（默認189幀，約7.9秒）。聲音生成為48kHz立體聲AAC。動作條件涵蓋攝像頭、車輛、第一人稱、單臂、雙臂和人形等多種具身形態。

在基準測試方面，Cosmos 3表現優異。推理方面，Super和Nano在各自規模上領先VANTAGE-Bench，並在交通異常推理（TAR）排行榜上位居榜首，TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面，NVIDIA報告了開源模型的領先結果：在R-Bench上達到開源SOTA，在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上領先，並在Artificial Analysis文本到圖像和圖像到視頻的無音頻排行榜上佔據領先位置。

NVIDIA還引入了Cosmos人類評估框架HUE，通過將每個生成視頻分解為“是/否”事實問題，從語義對齊、物理定律、幾何推理和視覺完整性四個維度評估視頻質量，覆蓋七個物理AI領域。

Cosmos 3以OpenMDW-1.1許可證開源，包含Nano、Super及任務特定變體的模型權重，六個用於機器人、物理、空間推理、人體運動、駕駛和倉庫的SDG數據集，以及訓練配方（包括SFT和動作後訓練）。部署方面，提供NIM微服務（推理器NIM現可用，生成器NIM待發布），支持BF16、FP8和NVFP4量化（NVFP4可帶來高達2倍加速），推理器NIM基於vLLM構建，並提供高效視頻採樣（EVS）以減少推理時冗餘視頻標記。

儘管功能強大，Cosmos 3仍存在一些侷限性，如輸出可能出現時間不一致、運動不穩定、物體變形、3D結構不準確以及音視頻不同步等問題。在安全關鍵控制應用中，需要額外的驗證、護欄和系統級分析。