AI News HubLIVE
站内改写2 分鐘閱讀

NVIDIA研究解鎖先進抓取、更智能的自主駕駛和規模化智能體訓練

在CVPR大會上,NVIDIA研究展示了三篇論文,分別解決機器人抓取、自主駕駛推理和虛擬智能體訓練中的關鍵挑戰。GraspGen-X是首個零樣本抓取基礎模型,可適配任何抓取器;LCDrive通過緊湊潛在表示加快車輛推理速度;NitroGen基於Isaac GR00T架構,在虛擬環境中訓練具身智能體。這些工作強調了大規模訓練對泛化能力的重要性。

來源NVIDIA Blog作者: Isha Salian

在今年的計算機視覺與模式識別大會(CVPR)上,NVIDIA研究團隊展示了三項突破性研究,共同指向一個主題:規模化訓練使系統能夠跨多樣化應用實現泛化。這些工作分別涉及機器人抓取、自主駕駛推理和虛擬智能體訓練,代表了物理AI研究的前沿。

首個抓取基礎模型

大多數機器人抓取AI系統都是專用型的。例如,為二指抓取器訓練的策略只能學習使用那兩個手指,而靈巧抓取策略也只適用於其訓練的多指抓取器。每次更換抓取器,通常都需要重複訓練數據收集、微調和驗證。GraspGen-X旨在消除這一瓶頸。作為首個抓取基礎模型,它理解幾何和接觸,從而能夠為任何遇到的機器人抓取器生成可靠的抓取姿態提議。該模型在數千種物體形狀和合成抓取器配置上生成了20億次模擬抓取,覆蓋了實際機器人可能遇到的各種形態。對於機器人開發者來説,這個基礎模型消除了每個抓取器的訓練週期,可以直接用於多種常用抓取器。GraspGen-X可與新的CUDA加速運動規劃庫cuRoboV2結合,在未知環境中實現這些抓取姿態。

讓自主駕駛更快思考

近年來,研究人員發現,讓AI進行推理——在做出最終決策前生成中間思考步驟——能可靠地改善其決策質量。但對於自主駕駛車輛來説,挑戰在於在車輛實際搭載的硬件上進行這種推理。基於文本的思維鏈推理會生成詞彙,每個詞都是一個需要時間生成的token。LCDrive通過用壓縮潛在表示替代詞彙來解決這個問題。系統不是在生成人類可讀的推理步驟,而是在緊湊的潛在空間中思考——這個空間包含空間信息而非文本。其架構在兩種思考之間交替:提出候選動作,然後預測如果採取這些動作世界會變成什麼樣。它利用預測的世界狀態來優化下一步。結果是:與基於文本的推理相比,輸出軌跡質量相當,但使用的token大約只有一半。該模型基於NVIDIA Alpamayo構建,並使用現有車輛數據生成的監督進行訓練。

在虛擬世界中訓練具身智能體

NVIDIA的Isaac GR00T——一個用於人形機器人的開放基礎模型——基於一個簡單原則:讓模型接觸足夠多樣化的情境,它就能泛化到未見過的情境。NitroGen將該原則擴展到虛擬環境,利用GR00T架構在廣泛的虛擬世界中訓練具身智能體的基礎模型。視頻遊戲提供了結構化的、多樣的世界,具有明確的目標和明確定義的成功條件。NitroGen將它們視為訓練場——最終用於處理新穎的真實或模擬世界情境的智能體。該模型在超過1000款遊戲和40000小時的交互中訓練,基於GR00T模型,生成的智能體能夠跨環境泛化。在低數據條件下,從NitroGen開始能給智能體巨大優勢,性能比之前的最先進方法提升高達52%。模型已開源,可在GitHub和Hugging Face上獲取。

NVIDIA還在CVPR上展示了新的物理AI智能體技能,幫助研究人員和開發者加速自主駕駛車輛、機器人和視覺AI系統的開發。