2026-06-01 12:44 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

歡迎使用NVIDIA Cosmos 3：首個用於物理AI推理與行動的開源全模態模型

NVIDIA發佈了Cosmos 3，這是一個統一的世界基礎模型，結合了世界生成、物理推理和行動生成。該模型基於混合Transformer架構，支持多種輸入和輸出模態，包括文本、圖像、視頻和動作。提供兩個版本：Cosmos 3 Nano（8B參數）和Cosmos 3 Super（32B參數），並已集成到Hugging Face Diffusers庫中。同時發佈了多個用於物理AI的合成數據生成數據集。

來源Hugging Face Blog

NVIDIA 今日正式發佈 Cosmos 3，這是首個面向物理 AI 的開源全模態模型。該模型將世界生成、物理推理和行動生成統一在一個框架中，基於創新的混合 Transformer（MoT）架構。與以往需要分別使用多個獨立模型（如 Cosmos Predict 用於世界生成、Cosmos Transfer 用於可控生成、Cosmos Reason 用於場景理解、Cosmos Policy 用於策略生成）不同，Cosmos 3 通過單一模型即可完成所有任務。其架構將輸入序列分為自迴歸（AR）和擴散（DM）兩個子序列：AR 子序列負責推理和理解，通過下一個 token 預測工作；DM 子序列負責生成，通過迭代去噪實現。兩個子序列在每一層 Transformer 中共享參數集但通過聯合注意力機制交互，這使得模型可以無縫扮演視覺語言模型、視頻生成器、前向/逆向動力學模型或機器人策略的角色。

Cosmos 3 提供兩種尺寸：Nano 版本（8B 參數）針對工作站級 GPU（如 RTX PRO 6000）進行了優化，適合高效推理；Super 版本（32B 參數）專為大規模合成數據生成和研究設計，運行在 NVIDIA Hopper 和 Blackwell GPU 上。兩個模型均已通過 Hugging Face 發佈，並集成到 Diffusers 庫中。開發者可以使用 Cosmos3OmniPipeline 輕鬆實現文本到圖像、文本到視頻、圖像到視頻等管線。例如，以下 Python 代碼展示瞭如何使用 Nano 版本從文本生成圖像：

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一個現代機器人研究實驗室的中景，白色牆壁和灰色地板。一個金屬質感的機械臂安裝在乾淨的白色工作台上，其夾爪位於一排彩色小物體上方。機器人旁邊放着一台筆記本電腦和整齊排列的工具。背後牆上的大顯示器顯示着軟件界面。場景由頭頂熒光燈明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

除了核心模型，NVIDIA 還發布了多個合成數據生成（SDG）數據集，涵蓋機器人操作場景、物理交互、空間推理、數字人運動、自動駕駛場景和倉庫安全等。這些數據集由 NVIDIA 多個團隊生成，可在 Hugging Face 上獲取。Cosmos 3 還提供了後訓練腳本和智能體技能，幫助開發者在特定任務上微調模型，以及快速搭建開發環境。

Cosmos 3 的發佈奠定了物理 AI 領域的重要里程碑，它簡化了從感知到行動的整個流程，為機器人、自動駕駛和智能空間等應用提供了統一的解決方案。開發者可以訪問 NVIDIA 的 GitHub 倉庫、技術博客和 NIM 微服務以獲取更多信息。