2026-06-03 23:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA研究解鎖先進抓取、更智能的自主駕駛和規模化智能體訓練

在CVPR大會上，NVIDIA研究展示了三篇論文，分別解決機器人抓取、自主駕駛推理和虛擬智能體訓練中的關鍵挑戰。GraspGen-X是首個零樣本抓取基礎模型，可適配任何抓取器；LCDrive通過緊湊潛在表示加快車輛推理速度；NitroGen基於Isaac GR00T架構，在虛擬環境中訓練具身智能體。這些工作強調了大規模訓練對泛化能力的重要性。

來源NVIDIA Blog作者: Isha Salian

在今年的計算機視覺與模式識別大會（CVPR）上，NVIDIA研究團隊展示了三項突破性研究，共同指向一個主題：規模化訓練使系統能夠跨多樣化應用實現泛化。這些工作分別涉及機器人抓取、自主駕駛推理和虛擬智能體訓練，代表了物理AI研究的前沿。

首個抓取基礎模型

大多數機器人抓取AI系統都是專用型的。例如，為二指抓取器訓練的策略只能學習使用那兩個手指，而靈巧抓取策略也只適用於其訓練的多指抓取器。每次更換抓取器，通常都需要重複訓練數據收集、微調和驗證。GraspGen-X旨在消除這一瓶頸。作為首個抓取基礎模型，它理解幾何和接觸，從而能夠為任何遇到的機器人抓取器生成可靠的抓取姿態提議。該模型在數千種物體形狀和合成抓取器配置上生成了20億次模擬抓取，覆蓋了實際機器人可能遇到的各種形態。對於機器人開發者來説，這個基礎模型消除了每個抓取器的訓練週期，可以直接用於多種常用抓取器。GraspGen-X可與新的CUDA加速運動規劃庫cuRoboV2結合，在未知環境中實現這些抓取姿態。

讓自主駕駛更快思考

近年來，研究人員發現，讓AI進行推理——在做出最終決策前生成中間思考步驟——能可靠地改善其決策質量。但對於自主駕駛車輛來説，挑戰在於在車輛實際搭載的硬件上進行這種推理。基於文本的思維鏈推理會生成詞彙，每個詞都是一個需要時間生成的token。LCDrive通過用壓縮潛在表示替代詞彙來解決這個問題。系統不是在生成人類可讀的推理步驟，而是在緊湊的潛在空間中思考——這個空間包含空間信息而非文本。其架構在兩種思考之間交替：提出候選動作，然後預測如果採取這些動作世界會變成什麼樣。它利用預測的世界狀態來優化下一步。結果是：與基於文本的推理相比，輸出軌跡質量相當，但使用的token大約只有一半。該模型基於NVIDIA Alpamayo構建，並使用現有車輛數據生成的監督進行訓練。

在虛擬世界中訓練具身智能體

NVIDIA的Isaac GR00T——一個用於人形機器人的開放基礎模型——基於一個簡單原則：讓模型接觸足夠多樣化的情境，它就能泛化到未見過的情境。NitroGen將該原則擴展到虛擬環境，利用GR00T架構在廣泛的虛擬世界中訓練具身智能體的基礎模型。視頻遊戲提供了結構化的、多樣的世界，具有明確的目標和明確定義的成功條件。NitroGen將它們視為訓練場——最終用於處理新穎的真實或模擬世界情境的智能體。該模型在超過1000款遊戲和40000小時的交互中訓練，基於GR00T模型，生成的智能體能夠跨環境泛化。在低數據條件下，從NitroGen開始能給智能體巨大優勢，性能比之前的最先進方法提升高達52%。模型已開源，可在GitHub和Hugging Face上獲取。

NVIDIA還在CVPR上展示了新的物理AI智能體技能，幫助研究人員和開發者加速自主駕駛車輛、機器人和視覺AI系統的開發。