2026-06-01 21:26 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Nvidia在GTC Taipei重磅投入物理AI：全新世界模型、駕駛大腦和開源人形機器人

Nvidia在GTC Taipei發佈了一系列用於機器人、自動駕駛和視頻系統的模型，包括世界模型Cosmos 3、升級版駕駛模型Alpamayo 2 Super，以及開源人形機器人蔘考平台，旨在推動物理AI的發展。

來源The Decoder作者: Maximilian Schreiner

在GTC Taipei大會上，Nvidia宣佈了一系列針對物理AI領域的重大發布，涵蓋世界模型、自動駕駛和人形機器人等多個方向。這些發佈顯示了Nvidia將AI從數字世界擴展到物理世界的雄心，通過開放模型和參考平台，推動機器人、自動駕駛和視頻分析技術的標準化。

Cosmos 3是Nvidia新一代開源全模態模型，能夠處理文本、圖像、視頻、環境音頻和動作數據。開發者可以利用它生成合成訓練數據、解釋場景並預測未來世界狀態，而無需在現實世界中重現這些情況。Nvidia列舉了三個主要用例：作為視覺語言模型分析視頻（例如智能城市中的交通異常檢測）；作為世界模型生成罕見場景的逼真視頻序列；以及作為世界動作模型產生機器人學習所需的數值運動數據。該架構採用混合Transformer方法：一個推理變壓器分析場景，另一個生成變壓器從分析中生成視頻、描述或運動軌跡。訓練數據包含數十億個樣本，涵蓋文本、圖像、視頻、音頻和動作。Nvidia提供三個變體：Cosmos 3 Super（最佳質量）、Nano（快速推理）和即將推出的Edge（實時嵌入式系統）。這些模型以OpenMDW-1.1許可證在Hugging Face和GitHub上發佈。同時，Nvidia宣佈了“Cosmos聯盟”，包括Black Forest Labs、Runway等合作伙伴，利用Nvidia的DGX Cloud訓練基礎設施並貢獻模型和數據。

Alpamayo 2 Super是Nvidia用於L4自動駕駛的模型系列的最新旗艦，擁有320億參數，取代了之前的100億參數版本。該模型從攝像頭圖像輸入，推導出駕駛決策並輸出具體軌跡。與之前版本相比，它改進了空間理解和罕見情況處理能力，並新增了元動作輸出（如“變道”、“停車”），附帶“因果鏈”推理文本，旨在滿足安全文檔和監管審查要求。Nvidia表示，該大模型旨在作為教師模型，用於蒸餾出適合車載Drive AGX Thor芯片的較小模型。此外，Nvidia還發布了AlpaGym（用於閉環強化學習的開源框架）和OmniDreams（用於生成罕見交通場景的生成模型）。代碼和權重預計將於今年夏季在GitHub和Hugging Face上發佈。Nvidia未提供與Waymo或Tesla系統的直接比較數據。

Isaac GR00T參考人形機器人是Nvidia為學術研究推出的開源平台。該機器人基於Unitree H2 Plus底盤，配備來自Sharpa的觸覺五指手，由Jetson AGX Thor T5000（2070 FP4 TFLOPS）驅動，總共擁有75個自由度。軟件方面運行Isaac GR00T棧，涵蓋遙操作、Isaac Sim仿真、基礎模型和ROS中間件。Nvidia本身不銷售該機器人，但Unitree計劃於2026年底提供硬件。研究合作伙伴包括Ai2、蘇黎世聯邦理工學院、斯坦福機器人中心和加州大學聖地亞哥分校ARC實驗室。通過這一參考設計，Nvidia試圖標準化硬件-軟件組合，加深機器人研究社區對Jetson芯片和Isaac工具的依賴。