歡迎使用NVIDIA Cosmos 3:首個用於物理AI推理與行動的開源全模態模型
NVIDIA釋出了Cosmos 3,這是一個統一的世界基礎模型,結合了世界生成、物理推理和行動生成。該模型基於混合Transformer架構,支援多種輸入和輸出模態,包括文本、影像、影片和動作。提供兩個版本:Cosmos 3 Nano(8B引數)和Cosmos 3 Super(32B引數),並已整合到Hugging Face Diffusers庫中。同時釋出了多個用於物理AI的合成資料生成資料集。
NVIDIA 今日正式釋出 Cosmos 3,這是首個面向物理 AI 的開源全模態模型。該模型將世界生成、物理推理和行動生成統一在一個框架中,基於創新的混合 Transformer(MoT)架構。與以往需要分別使用多個獨立模型(如 Cosmos Predict 用於世界生成、Cosmos Transfer 用於可控生成、Cosmos Reason 用於場景理解、Cosmos Policy 用於策略生成)不同,Cosmos 3 透過單一模型即可完成所有任務。其架構將輸入序列分為自迴歸(AR)和擴散(DM)兩個子序列:AR 子序列負責推理和理解,透過下一個 token 預測工作;DM 子序列負責生成,透過迭代去噪實現。兩個子序列在每一層 Transformer 中共享引數集但透過聯合注意力機制互動,這使得模型可以無縫扮演視覺語言模型、影片生成器、前向/逆向動力學模型或機器人策略的角色。
Cosmos 3 提供兩種尺寸:Nano 版本(8B 引數)針對工作站級 GPU(如 RTX PRO 6000)進行了最佳化,適合高效推理;Super 版本(32B 引數)專為大規模合成資料生成和研究設計,執行在 NVIDIA Hopper 和 Blackwell GPU 上。兩個模型均已透過 Hugging Face 釋出,並整合到 Diffusers 庫中。開發者可以使用 Cosmos3OmniPipeline 輕鬆實現文本到影像、文本到影片、影像到影片等管線。例如,以下 Python 程式碼展示瞭如何使用 Nano 版本從文本生成影像:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一個現代機器人研究實驗室的中景,白色牆壁和灰色地板。一個金屬質感的機械臂安裝在乾淨的白色工作臺上,其夾爪位於一排彩色小物體上方。機器人旁邊放著一臺筆記型電腦和整齊排列的工具。背後牆上的大顯示器顯示著軟體介面。場景由頭頂熒光燈明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)除了核心模型,NVIDIA 還發布了多個合成資料生成(SDG)資料集,涵蓋機器人操作場景、物理互動、空間推理、數字人運動、自動駕駛場景和倉庫安全等。這些資料集由 NVIDIA 多個團隊生成,可在 Hugging Face 上獲取。Cosmos 3 還提供了後訓練指令碼和智慧體技能,幫助開發者在特定任務上微調模型,以及快速搭建開發環境。
Cosmos 3 的釋出奠定了物理 AI 領域的重要里程碑,它簡化了從感知到行動的整個流程,為機器人、自動駕駛和智慧空間等應用提供了統一的解決方案。開發者可以訪問 NVIDIA 的 GitHub 倉庫、技術部落格和 NIM 微服務以獲取更多資訊。