2026-06-01 21:26 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Nvidia在GTC Taipei重磅投入物理AI：全新世界模型、駕駛大腦和開源人形機器人

Nvidia在GTC Taipei釋出了一系列用於機器人、自動駕駛和影片系統的模型，包括世界模型Cosmos 3、升級版駕駛模型Alpamayo 2 Super，以及開源人形機器人參考平臺，旨在推動物理AI的發展。

來源The Decoder作者: Maximilian Schreiner

在GTC Taipei大會上，Nvidia宣佈了一系列針對物理AI領域的重大發布，涵蓋世界模型、自動駕駛和人形機器人等多個方向。這些釋出顯示了Nvidia將AI從數字世界擴充套件到物理世界的雄心，透過開放模型和參考平臺，推動機器人、自動駕駛和影片分析技術的標準化。

Cosmos 3是Nvidia新一代開源全模態模型，能夠處理文本、影像、影片、環境音訊和動作資料。開發者可以利用它生成合成訓練資料、解釋場景並預測未來世界狀態，而無需在現實世界中重現這些情況。Nvidia列舉了三個主要用例：作為視覺語言模型分析影片（例如智慧城市中的交通異常檢測）；作為世界模型生成罕見場景的逼真影片序列；以及作為世界動作模型產生機器人學習所需的數值運動資料。該架構採用混合Transformer方法：一個推理變壓器分析場景，另一個生成變壓器從分析中生成影片、描述或運動軌跡。訓練資料包含數十億個樣本，涵蓋文本、影像、影片、音訊和動作。Nvidia提供三個變體：Cosmos 3 Super（最佳質量）、Nano（快速推理）和即將推出的Edge（即時嵌入式系統）。這些模型以OpenMDW-1.1許可證在Hugging Face和GitHub上釋出。同時，Nvidia宣佈了“Cosmos聯盟”，包括Black Forest Labs、Runway等合作伙伴，利用Nvidia的DGX Cloud訓練基礎設施並貢獻模型和資料。

Alpamayo 2 Super是Nvidia用於L4自動駕駛的模型系列的最新旗艦，擁有320億引數，取代了之前的100億引數版本。該模型從攝像頭影像輸入，推匯出駕駛決策並輸出具體軌跡。與之前版本相比，它改進了空間理解和罕見情況處理能力，並新增了元動作輸出（如“變道”、“停車”），附帶“因果鏈”推理文本，旨在滿足安全文件和監管審查要求。Nvidia表示，該大模型旨在作為教師模型，用於蒸餾出適合車載Drive AGX Thor晶片的較小模型。此外，Nvidia還發布了AlpaGym（用於閉環強化學習的開源框架）和OmniDreams（用於生成罕見交通場景的生成模型）。程式碼和權重預計將於今年夏季在GitHub和Hugging Face上釋出。Nvidia未提供與Waymo或Tesla系統的直接比較資料。

Isaac GR00T參考人形機器人是Nvidia為學術研究推出的開源平臺。該機器人基於Unitree H2 Plus底盤，配備來自Sharpa的觸覺五指手，由Jetson AGX Thor T5000（2070 FP4 TFLOPS）驅動，總共擁有75個自由度。軟體方面執行Isaac GR00T棧，涵蓋遙操作、Isaac Sim模擬、基礎模型和ROS中介軟體。Nvidia本身不銷售該機器人，但Unitree計劃於2026年底提供硬體。研究合作伙伴包括Ai2、蘇黎世聯邦理工學院、斯坦福機器人中心和加州大學聖地亞哥分校ARC實驗室。透過這一參考設計，Nvidia試圖示準化硬體-軟體組合，加深機器人研究社群對Jetson晶片和Isaac工具的依賴。