Nvidia在GTC Taipei重磅投入物理AI:全新世界模型、駕駛大腦和開源人形機器人
Nvidia在GTC Taipei發佈了一系列用於機器人、自動駕駛和視頻系統的模型,包括世界模型Cosmos 3、升級版駕駛模型Alpamayo 2 Super,以及開源人形機器人蔘考平台,旨在推動物理AI的發展。
在GTC Taipei大會上,Nvidia宣佈了一系列針對物理AI領域的重大發布,涵蓋世界模型、自動駕駛和人形機器人等多個方向。這些發佈顯示了Nvidia將AI從數字世界擴展到物理世界的雄心,通過開放模型和參考平台,推動機器人、自動駕駛和視頻分析技術的標準化。
Cosmos 3是Nvidia新一代開源全模態模型,能夠處理文本、圖像、視頻、環境音頻和動作數據。開發者可以利用它生成合成訓練數據、解釋場景並預測未來世界狀態,而無需在現實世界中重現這些情況。Nvidia列舉了三個主要用例:作為視覺語言模型分析視頻(例如智能城市中的交通異常檢測);作為世界模型生成罕見場景的逼真視頻序列;以及作為世界動作模型產生機器人學習所需的數值運動數據。該架構採用混合Transformer方法:一個推理變壓器分析場景,另一個生成變壓器從分析中生成視頻、描述或運動軌跡。訓練數據包含數十億個樣本,涵蓋文本、圖像、視頻、音頻和動作。Nvidia提供三個變體:Cosmos 3 Super(最佳質量)、Nano(快速推理)和即將推出的Edge(實時嵌入式系統)。這些模型以OpenMDW-1.1許可證在Hugging Face和GitHub上發佈。同時,Nvidia宣佈了“Cosmos聯盟”,包括Black Forest Labs、Runway等合作伙伴,利用Nvidia的DGX Cloud訓練基礎設施並貢獻模型和數據。
Alpamayo 2 Super是Nvidia用於L4自動駕駛的模型系列的最新旗艦,擁有320億參數,取代了之前的100億參數版本。該模型從攝像頭圖像輸入,推導出駕駛決策並輸出具體軌跡。與之前版本相比,它改進了空間理解和罕見情況處理能力,並新增了元動作輸出(如“變道”、“停車”),附帶“因果鏈”推理文本,旨在滿足安全文檔和監管審查要求。Nvidia表示,該大模型旨在作為教師模型,用於蒸餾出適合車載Drive AGX Thor芯片的較小模型。此外,Nvidia還發布了AlpaGym(用於閉環強化學習的開源框架)和OmniDreams(用於生成罕見交通場景的生成模型)。代碼和權重預計將於今年夏季在GitHub和Hugging Face上發佈。Nvidia未提供與Waymo或Tesla系統的直接比較數據。
Isaac GR00T參考人形機器人是Nvidia為學術研究推出的開源平台。該機器人基於Unitree H2 Plus底盤,配備來自Sharpa的觸覺五指手,由Jetson AGX Thor T5000(2070 FP4 TFLOPS)驅動,總共擁有75個自由度。軟件方面運行Isaac GR00T棧,涵蓋遙操作、Isaac Sim仿真、基礎模型和ROS中間件。Nvidia本身不銷售該機器人,但Unitree計劃於2026年底提供硬件。研究合作伙伴包括Ai2、蘇黎世聯邦理工學院、斯坦福機器人中心和加州大學聖地亞哥分校ARC實驗室。通過這一參考設計,Nvidia試圖標準化硬件-軟件組合,加深機器人研究社區對Jetson芯片和Isaac工具的依賴。