Nvidia在GTC Taipei重磅投入物理AI:全新世界模型、駕駛大腦和開源人形機器人
Nvidia在GTC Taipei釋出了一系列用於機器人、自動駕駛和影片系統的模型,包括世界模型Cosmos 3、升級版駕駛模型Alpamayo 2 Super,以及開源人形機器人參考平臺,旨在推動物理AI的發展。
在GTC Taipei大會上,Nvidia宣佈了一系列針對物理AI領域的重大發布,涵蓋世界模型、自動駕駛和人形機器人等多個方向。這些釋出顯示了Nvidia將AI從數字世界擴充套件到物理世界的雄心,透過開放模型和參考平臺,推動機器人、自動駕駛和影片分析技術的標準化。
Cosmos 3是Nvidia新一代開源全模態模型,能夠處理文本、影像、影片、環境音訊和動作資料。開發者可以利用它生成合成訓練資料、解釋場景並預測未來世界狀態,而無需在現實世界中重現這些情況。Nvidia列舉了三個主要用例:作為視覺語言模型分析影片(例如智慧城市中的交通異常檢測);作為世界模型生成罕見場景的逼真影片序列;以及作為世界動作模型產生機器人學習所需的數值運動資料。該架構採用混合Transformer方法:一個推理變壓器分析場景,另一個生成變壓器從分析中生成影片、描述或運動軌跡。訓練資料包含數十億個樣本,涵蓋文本、影像、影片、音訊和動作。Nvidia提供三個變體:Cosmos 3 Super(最佳質量)、Nano(快速推理)和即將推出的Edge(即時嵌入式系統)。這些模型以OpenMDW-1.1許可證在Hugging Face和GitHub上釋出。同時,Nvidia宣佈了“Cosmos聯盟”,包括Black Forest Labs、Runway等合作伙伴,利用Nvidia的DGX Cloud訓練基礎設施並貢獻模型和資料。
Alpamayo 2 Super是Nvidia用於L4自動駕駛的模型系列的最新旗艦,擁有320億引數,取代了之前的100億引數版本。該模型從攝像頭影像輸入,推匯出駕駛決策並輸出具體軌跡。與之前版本相比,它改進了空間理解和罕見情況處理能力,並新增了元動作輸出(如“變道”、“停車”),附帶“因果鏈”推理文本,旨在滿足安全文件和監管審查要求。Nvidia表示,該大模型旨在作為教師模型,用於蒸餾出適合車載Drive AGX Thor晶片的較小模型。此外,Nvidia還發布了AlpaGym(用於閉環強化學習的開源框架)和OmniDreams(用於生成罕見交通場景的生成模型)。程式碼和權重預計將於今年夏季在GitHub和Hugging Face上釋出。Nvidia未提供與Waymo或Tesla系統的直接比較資料。
Isaac GR00T參考人形機器人是Nvidia為學術研究推出的開源平臺。該機器人基於Unitree H2 Plus底盤,配備來自Sharpa的觸覺五指手,由Jetson AGX Thor T5000(2070 FP4 TFLOPS)驅動,總共擁有75個自由度。軟體方面執行Isaac GR00T棧,涵蓋遙操作、Isaac Sim模擬、基礎模型和ROS中介軟體。Nvidia本身不銷售該機器人,但Unitree計劃於2026年底提供硬體。研究合作伙伴包括Ai2、蘇黎世聯邦理工學院、斯坦福機器人中心和加州大學聖地亞哥分校ARC實驗室。透過這一參考設計,Nvidia試圖示準化硬體-軟體組合,加深機器人研究社群對Jetson晶片和Isaac工具的依賴。