AI News HubLIVE
站内改写2 分鐘閱讀

歡迎使用NVIDIA Cosmos 3:首個用於物理AI推理與行動的開源全模態模型

NVIDIA發佈了Cosmos 3,這是一個統一的世界基礎模型,結合了世界生成、物理推理和行動生成。該模型基於混合Transformer架構,支持多種輸入和輸出模態,包括文本、圖像、視頻和動作。提供兩個版本:Cosmos 3 Nano(8B參數)和Cosmos 3 Super(32B參數),並已集成到Hugging Face Diffusers庫中。同時發佈了多個用於物理AI的合成數據生成數據集。

NVIDIA 今日正式發佈 Cosmos 3,這是首個面向物理 AI 的開源全模態模型。該模型將世界生成、物理推理和行動生成統一在一個框架中,基於創新的混合 Transformer(MoT)架構。與以往需要分別使用多個獨立模型(如 Cosmos Predict 用於世界生成、Cosmos Transfer 用於可控生成、Cosmos Reason 用於場景理解、Cosmos Policy 用於策略生成)不同,Cosmos 3 通過單一模型即可完成所有任務。其架構將輸入序列分為自迴歸(AR)和擴散(DM)兩個子序列:AR 子序列負責推理和理解,通過下一個 token 預測工作;DM 子序列負責生成,通過迭代去噪實現。兩個子序列在每一層 Transformer 中共享參數集但通過聯合注意力機制交互,這使得模型可以無縫扮演視覺語言模型、視頻生成器、前向/逆向動力學模型或機器人策略的角色。

Cosmos 3 提供兩種尺寸:Nano 版本(8B 參數)針對工作站級 GPU(如 RTX PRO 6000)進行了優化,適合高效推理;Super 版本(32B 參數)專為大規模合成數據生成和研究設計,運行在 NVIDIA Hopper 和 Blackwell GPU 上。兩個模型均已通過 Hugging Face 發佈,並集成到 Diffusers 庫中。開發者可以使用 Cosmos3OmniPipeline 輕鬆實現文本到圖像、文本到視頻、圖像到視頻等管線。例如,以下 Python 代碼展示瞭如何使用 Nano 版本從文本生成圖像:

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一個現代機器人研究實驗室的中景,白色牆壁和灰色地板。一個金屬質感的機械臂安裝在乾淨的白色工作台上,其夾爪位於一排彩色小物體上方。機器人旁邊放着一台筆記本電腦和整齊排列的工具。背後牆上的大顯示器顯示着軟件界面。場景由頭頂熒光燈明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

除了核心模型,NVIDIA 還發布了多個合成數據生成(SDG)數據集,涵蓋機器人操作場景、物理交互、空間推理、數字人運動、自動駕駛場景和倉庫安全等。這些數據集由 NVIDIA 多個團隊生成,可在 Hugging Face 上獲取。Cosmos 3 還提供了後訓練腳本和智能體技能,幫助開發者在特定任務上微調模型,以及快速搭建開發環境。

Cosmos 3 的發佈奠定了物理 AI 領域的重要里程碑,它簡化了從感知到行動的整個流程,為機器人、自動駕駛和智能空間等應用提供了統一的解決方案。開發者可以訪問 NVIDIA 的 GitHub 倉庫、技術博客和 NIM 微服務以獲取更多信息。