2026-06-01 12:44 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

歡迎使用NVIDIA Cosmos 3：首個用於物理AI推理與行動的開源全模態模型

NVIDIA釋出了Cosmos 3，這是一個統一的世界基礎模型，結合了世界生成、物理推理和行動生成。該模型基於混合Transformer架構，支援多種輸入和輸出模態，包括文本、影像、影片和動作。提供兩個版本：Cosmos 3 Nano（8B引數）和Cosmos 3 Super（32B引數），並已整合到Hugging Face Diffusers庫中。同時釋出了多個用於物理AI的合成資料生成資料集。

來源Hugging Face Blog

NVIDIA 今日正式釋出 Cosmos 3，這是首個面向物理 AI 的開源全模態模型。該模型將世界生成、物理推理和行動生成統一在一個框架中，基於創新的混合 Transformer（MoT）架構。與以往需要分別使用多個獨立模型（如 Cosmos Predict 用於世界生成、Cosmos Transfer 用於可控生成、Cosmos Reason 用於場景理解、Cosmos Policy 用於策略生成）不同，Cosmos 3 透過單一模型即可完成所有任務。其架構將輸入序列分為自迴歸（AR）和擴散（DM）兩個子序列：AR 子序列負責推理和理解，透過下一個 token 預測工作；DM 子序列負責生成，透過迭代去噪實現。兩個子序列在每一層 Transformer 中共享引數集但透過聯合注意力機制互動，這使得模型可以無縫扮演視覺語言模型、影片生成器、前向/逆向動力學模型或機器人策略的角色。

Cosmos 3 提供兩種尺寸：Nano 版本（8B 引數）針對工作站級 GPU（如 RTX PRO 6000）進行了最佳化，適合高效推理；Super 版本（32B 引數）專為大規模合成資料生成和研究設計，執行在 NVIDIA Hopper 和 Blackwell GPU 上。兩個模型均已透過 Hugging Face 釋出，並整合到 Diffusers 庫中。開發者可以使用 Cosmos3OmniPipeline 輕鬆實現文本到影像、文本到影片、影像到影片等管線。例如，以下 Python 程式碼展示瞭如何使用 Nano 版本從文本生成影像：

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一個現代機器人研究實驗室的中景，白色牆壁和灰色地板。一個金屬質感的機械臂安裝在乾淨的白色工作臺上，其夾爪位於一排彩色小物體上方。機器人旁邊放著一臺筆記型電腦和整齊排列的工具。背後牆上的大顯示器顯示著軟體介面。場景由頭頂熒光燈明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

除了核心模型，NVIDIA 還發布了多個合成資料生成（SDG）資料集，涵蓋機器人操作場景、物理互動、空間推理、數字人運動、自動駕駛場景和倉庫安全等。這些資料集由 NVIDIA 多個團隊生成，可在 Hugging Face 上獲取。Cosmos 3 還提供了後訓練指令碼和智慧體技能，幫助開發者在特定任務上微調模型，以及快速搭建開發環境。

Cosmos 3 的釋出奠定了物理 AI 領域的重要里程碑，它簡化了從感知到行動的整個流程，為機器人、自動駕駛和智慧空間等應用提供了統一的解決方案。開發者可以訪問 NVIDIA 的 GitHub 倉庫、技術部落格和 NIM 微服務以獲取更多資訊。