2026-05-28 21:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上，NVIDIA Research展示了28篇論文中的8篇，重點研究模擬到現實的遷移，使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型，顯著提高了成功率和可靠性。

來源NVIDIA Blog作者: Katie Washabaugh

機器人技術正進入一個新階段：從受控演示和指令碼化自動化轉向可泛化、可靠的現實世界具身自主。在國際機器人與自動化大會（ICRA）上，NVIDIA Research的28篇被接收論文中有8篇展示了模擬到現實遷移如何成為這一轉變的基礎，幫助機器人在動態、不可預測的環境中感知、推理、規劃和行動。

這些論文涵蓋了機器人開發者面臨的全棧挑戰：並行協調多個機械臂、構建能跨機器人本體泛化的策略、在雜亂環境中抓取新物體、執行精確裝配以及開發在行動前進行推理的視覺-語言-動作模型。核心思路十分清晰：模擬到現實遷移正成為機器人在實驗室外適應、泛化和更可靠執行的基礎。

協調機械臂、導航本體、抓取物體 想象一個由機械臂執行的製藥實驗室：拿起試管、轉移液體、混合試劑——每個步驟所需時間不同，都需要精心協調。傳統的機器人排程軟體按順序處理這些步驟，一次只操作一個機械臂。ScheduleStream透過讓多個機械臂並行規劃運動和操作改變了這一局面——在NVIDIA Jetson邊緣AI平臺上，多臂規劃場景的速度提升了3倍。相關框架程式碼已在GitHub上開源。

COMPASS策略框架首先使用模仿學習構建基礎導航功能，然後在NVIDIA Isaac Lab中使用殘差強化學習為不同機器人形態構建專用策略。關鍵在於，整個過程不涉及任何真實機器人資料：一切都在Isaac Lab模擬中訓練。與模仿學習基線相比，COMPASS的平均成功率提高了4.5倍，並能在真實環境中無縫遷移，在自主移動機器人和人形機器人的20次真實導航測試中實現了約80%的成功率。開發者還可以將COMPASS與NVIDIA Omniverse NuRec連線，在部署前於數字孿生環境中後訓練和驗證機器人。

大多數抓取系統先識別物體、預測抓取、規劃路徑，然後執行。但最後幾釐米是最容易出錯的地方。Grasp-MPC自適應計算機器人的抓取動作，在接近物體時持續修正運動，而不是執行固定計劃——就像人抓東西時憑感覺而不是預先計算每個關節角度。研究人員使用GraspGen資料集和cuRobo運動規劃資料生成了200萬條模擬軌跡，涵蓋8000個物體。在成功和失敗軌跡上訓練後，Grasp-MPC學會在雜亂的桌面和貨架上抓取新物體，真實機器人總體成功率約75%，而基線僅為41%。

精確裝配 精確裝配——例如將螺母擰到螺栓上、將齒輪安裝到軸上、將銷釘壓入孔中——僅靠模擬很難實現。真實表面並非完美光滑，感測器行為也非理想。SPARR方法透過分兩步解決這一問題：在Isaac Lab中訓練的策略學習裝配任務的一般策略；然後在實際硬體上，第二層利用機器人自身攝像頭學習修正模擬錯誤，無需人類演示或指導。SPARR將成功率提高了38%，迴圈時間減少了約30%。在未訓練過的NIST裝配任務上，成功率提高了近75%，接近需要人工介入的方法的效果。Refinery框架應對多步驟順序裝配任務：透過理解不同初始條件下的成功率變化，學習如何完成每一步並將元件置於有利後續步驟的位置，模擬成功率達91%，比基線平均提高近11%。

言行一致的動作模型 PEEK管道幫助機器人忽略雜亂場景。在典型操作任務中，機器人攝像頭捕獲整個場景，但大部分是無關噪聲。PEEK透過讓視覺語言模型讀取任務指令並聚焦機器人的視線來解決這一問題——顯示運動路徑，高亮相關物體，淡化其他內容。策略在註釋後的檢視上行動，而非原始場景。對於純模擬訓練的策略，新增PEEK使真實世界準確率提高了41倍；對於大型VLA模型和小型策略，提升幅度在2-3.5倍之間。由於工作在影像級別，PEEK無需修改即可與任何基於相機的策略整合。

SEAL方法解決了機器人執行長複雜任務時的“言行不一”問題：機器人生成多個候選動作序列，推理每個序列的實際結果，選擇與指令最匹配的。SEAL的準確率比先前工作提高了15%，並且對指令重述、物體變化、場景雜亂和相機角度變化具有魯棒性。

除了論文，NVIDIA還擴大了機器人研究基礎設施，釋出了大型開源資料集。NVIDIA Physical AI Dataset已成為全球最大的物理開發開放資料集，下載量超過1500萬次；NVIDIA Isaac GR00T X Embodiment Sim已成為下載量最大的機器人資料集之一。