2026-06-03 16:35 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA釋出Cosmos 3：雙塔混合變換器基礎模型，統一物理推理、世界生成與動作生成

NVIDIA推出了Cosmos 3系列開放全模態世界模型，透過雙塔混合變換器架構統一物理推理、世界生成和動作生成。該模型家族包括Edge、Nano和Super三種規模，為機器人、自動駕駛和倉庫監控等物理AI應用提供統一解決方案。NVIDIA開源了模型權重、訓練指令碼、部署工具和資料集，採用OpenMDW-1.1許可證。在多項基準測試中，Cosmos 3在推理和生成任務上均取得領先成績。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

Cosmos 3採用雙塔混合變換器架構，將自迴歸VLM推理器與擴散生成器結合，實現物理推理、世界生成和動作生成的統一。
提供三種模型規模：Cosmos3-Nano（16B）適用於工作站，Cosmos3-Super（64B）適用於資料中心，Cosmos3-Edge（4B）計劃後期釋出。
在VANTAGE-Bench、TAR、R-Bench等基準上取得開源模型最佳效能，並引入HUE人類評估框架。
開源內容包括模型權重、六個SDG資料集、訓練方法、部署工具以及NIM微服務支援。

為什麼重要

這條新聞值得關注，因為Cosmos 3採用雙塔混合變換器架構，將自迴歸VLM推理器與擴散生成器結合，實現物理推理、世界生成和動作生成的統一。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

NVIDIA AI團隊近日釋出了Cosmos 3，這是一系列面向物理AI的全模態世界模型。Cosmos 3的創新之處在於將物理推理、世界生成和動作生成三大能力整合到一個統一的開源模型中。該模型的釋出面向機器人、自動駕駛汽車和倉庫監控等領域的開發團隊。

物理AI系統需要在行動之前理解世界。機器人和車輛需要感知、預測，然後採取行動。早期的Cosmos版本將這些任務分散到不同的模型中。而Cosmos 3透過混合變換器（Mixture-of-Transformers, MoT）架構實現了統一。該架構基於兩個核心模組：推理器（Reasoner Tower）和生成器（Generator Tower）。

推理器是一個視覺語言模型（VLM），採用自迴歸架構處理影像、影片和文本，能夠理解運動、物體互動等物理上下文。NVIDIA團隊將其描述為模型的“大腦”。生成器則基於擴散過程，生成符合物理規律的影片和動作序列，其輸出以推理器的理解為條件。資訊從推理器單向流向生成器，推理器可獨立執行，而生成器需要兩個模組協同工作。

Cosmos 3家族包含三種規模：Cosmos3-Nano（16B引數，基礎變換器為8B）、Cosmos3-Super（64B引數，基礎變換器為32B），以及計劃中的Cosmos3-Edge（4B引數）。Nano針對工作站GPU（如NVIDIA RTX PRO 6000）最佳化，適用於即時機器人應用；Super面向資料中心GPU（包括NVIDIA Hopper和Blackwell），適合大規模合成資料生成和高階推理。此外，還發布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任務特定變體。

在統一設計上，兩個模組共享同一個變換器架構和聯合注意力運算元，採用三維多模態旋轉位置編碼（mRoPE）將影片、音訊和動作標記對齊到同一時間軸。推理模式下，標記透過因果自注意力進行下一標記預測；生成模式下，噪聲標記透過全注意力進行去噪。模型將動作作為核心模態，支援文本、影像、影片和JSON動作陣列輸入，輸出包括影像、影片、同步聲音、動作狀態和文本。生成支援256p、480p和720p解析度，幀數從5到300幀不等（預設189幀，約7.9秒）。聲音生成為48kHz立體聲AAC。動作條件涵蓋攝像頭、車輛、第一人稱、單臂、雙臂和人形等多種具身形態。

在基準測試方面，Cosmos 3表現優異。推理方面，Super和Nano在各自規模上領先VANTAGE-Bench，並在交通異常推理（TAR）排行榜上位居榜首，TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面，NVIDIA報告了開源模型的領先結果：在R-Bench上達到開源SOTA，在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上領先，並在Artificial Analysis文本到影像和影像到影片的無音訊排行榜上佔據領先位置。

NVIDIA還引入了Cosmos人類評估框架HUE，透過將每個生成影片分解為“是/否”事實問題，從語義對齊、物理定律、幾何推理和視覺完整性四個維度評估影片質量，覆蓋七個物理AI領域。

Cosmos 3以OpenMDW-1.1許可證開源，包含Nano、Super及任務特定變體的模型權重，六個用於機器人、物理、空間推理、人體運動、駕駛和倉庫的SDG資料集，以及訓練配方（包括SFT和動作後訓練）。部署方面，提供NIM微服務（推理器NIM現可用，生成器NIM待發布），支援BF16、FP8和NVFP4量化（NVFP4可帶來高達2倍加速），推理器NIM基於vLLM構建，並提供高效影片取樣（EVS）以減少推理時冗餘影片標記。

儘管功能強大，Cosmos 3仍存在一些侷限性，如輸出可能出現時間不一致、運動不穩定、物體變形、3D結構不準確以及音影片不同步等問題。在安全關鍵控制應用中，需要額外的驗證、護欄和系統級分析。