NVIDIA研究推動機器人技術從模擬走向現實世界
在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。
- NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
- 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
公司追蹤
NVIDIA 最新 AI 新聞、產品、模型、生態和產業動態。
在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。
NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。
AI工廠是新型基礎設施,即時將電能轉化為智慧的生成單元——令牌。隨著代理型AI的擴充套件,每瓦效能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構最佳化以及NVIDIA的最新硬體如何提升效率。
提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG透過軌跡rollout的隨機擾動估計策略梯度,大幅減少批次渲染環境的數量以及計算和記憶體開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、記憶體使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬體上展示了有效的模擬到現實遷移。
本文提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制,實現多機器人協作推動箱體在不同傾斜度和摩擦力的地表(平坦、上坡、下坡)上運輸。該方法減少了通訊與同步需求,避免單點故障。在NVIDIA IsaacSim模擬中,六機器人團隊驗證了其在不同地表和箱體質量下的泛化能力,成功率優於傳統虛擬領導者-跟隨者方法。實際實驗中,四臺Turtlebot成功移動了1.2千克的箱體。
NightSight提出了一種輕量級感知方法,結合單目事件相機、編碼孔徑鏡頭和紅外點陣投影器,使小型飛行器能夠在完全黑暗的環境中自主導航。系統透過編碼孔徑產生深度相關的模糊特徵,並用卷積神經網路解碼為密集深度圖,僅使用合成資料訓練即可零樣本泛化到真實場景。在NVIDIA Jetson Orin Nano上以20Hz即時執行,2.5米範圍內誤差僅7.0釐米(2.80%)。
隨著AI向智慧體方向演進,對CPU提出了新要求:快速核心、海量記憶體頻寬以及全核高負載下的持續效能。Phoronix今日釋出的基準測試結果顯示,NVIDIA Vera CPU滿足這些需求。Vera採用88個定製Olympus核心,1.2TB/s記憶體頻寬,在功率效率內提供強勁效能。測試中,Vera在單插槽系統中展現了卓越的程式碼編譯、檔案壓縮、影片轉碼等能力,並在STREAM TRIAD測試中實現了90%峰值頻寬,遠超傳統x86 CPU。與上一代Grace相比,Vera效能提升1.6倍,在多項測試中領先於Intel和AMD的最新處理器。NVIDIA已向主要AI公司和雲提供商交付首批Vera CPU,預計下半年透過合作伙伴上市。
儘管97%的電信高管正在評估或採用AI,但許多專案因“資料債務”——即分散、無治理且語義不清晰的資料——而停滯在規模化之前。NVIDIA的2025年報告指出,瓶頸並非模型質量,而是資料可用性。Databricks Unity Catalog透過統一的語義層和治理機制,實現跨系統資料聯邦、細粒度訪問控制和豐富的語義上下文,從而將AI從演示推向可信賴的生產系統。
瞭解如何構建一個多智慧體活動稽核系統,該系統利用NVIDIA NIM進行GPU加速推理、Amazon Bedrock AgentCore提供託管執行時、Strands Agents實現無伺服器編排,支援並行推理、上下文持久化和可觀測性。
本教程詳細介紹瞭如何使用NVIDIA FLARE構建高階聯邦學習實驗,在非獨立同分布CIFAR-10資料集上比較FedAvg和FedProx演算法。透過狄利克雷分佈模擬客戶端的標籤不平衡,並使用NVFlare Job API定義和啟動聯邦任務,Client API處理本地訓練和模型交換。文章提供了完整的程式碼實現和實驗結果視覺化。
ServiceNow是一家美國企業軟體公司,總部位於加州聖克拉拉,全球員工超過29,000人。該公司大力投資AI和自動化,收購Passage AI、與NVIDIA合作、投入10億美元風投資金支援AI初創企業,並在加拿大投資1.1億加元推動公共部門AI應用。文章重點介紹兩個AI用例:利用生成式AI嵌入ITSM/CSM工作流,將解決記錄時間減少約80%;以及透過機器學習預測客戶升級,使主動參與率從11%提升至68%,誤報率僅約3%。
本文介紹了PIMbot框架,該框架透過獎勵通道激勵操控和智慧體自身策略操控兩種互補手段,對多機器人強化學習環境進行對抗性操控。自適應多目標控制器線上平衡這些手段。實驗在Gazebo模擬環境和NVIDIA Jetson Orin Nano真實嵌入式裝置上驗證了效果,PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。
上週AI領域迎來重大轉折:Google釋出Gemini Omni及代理優先平臺;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究釋出,包括HRM-Text高效預訓練正規化、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。
Google 的 SynthID 水印系統正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 採用,標誌著 AI 內容檢測向共享行業標準轉變。
儘管被五角大樓列為供應鏈風險,Anthropic仍可能繼續向NSA提供AI模型。情報機構缺乏輝達最新的Grace Blackwell晶片,而Anthropic的Mythos模型據稱也執行在較舊的硬體上。之前導致談判破裂的“任何合法用途”條款並未包含在此次協議中。
NVIDIA 推出的 Gated DeltaNet-2 是一種線性注意力層,透過通道級擦除門和寫入門解耦了記憶更新中的擦除與寫入操作。在 1.3B 引數、100B FineWeb-Edu 令牌上訓練,該模型在語言建模、常識推理和長上下文檢索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 長上下文檢索中提升顯著。
Meta推出了內部AI排行榜'Claudeonomics',透過代幣消耗追蹤員工AI工具使用情況,但因資料洩露而關閉。這一趨勢在行業內增長,Nvidia的Jensen Huang提議將AI代幣納入薪酬。
NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。
Mahjax是一個在JAX中實現的完全向量化立直麻將環境,可利用GPU進行大規模並行化,吞吐量達到在8塊NVIDIA A100 GPU上每秒200萬步(無紅寶牌規則)和100萬步(有紅寶牌規則)。該環境支援從零開始(tabula rasa)的強化學習訓練,並附有高質量視覺化工具,實驗驗證了訓練智慧體可以有效提升排名。
在COMPUTEX的NVIDIA GTC臺北站上,全球開發者、研究人員和行業領袖齊聚一堂,探討AI工廠、擴充套件基礎設施、代理式AI及物理AI等領域的突破性進展。NVIDIA創始人兼CEO黃仁勳將於6月1日上午11點(臺北時間)發表主題演講。本文提供即時更新,包括NVIDIA Vera Rubin NVL72、Jetson Thor和Alpamayo在COMPUTEX 2026最佳選擇獎中獲獎詳情。
阿里巴巴推出新AI晶片和模型,旨在減少對Nvidia晶片的依賴,實現全棧AI戰略。
NVIDIA推出Nemotron-Labs-Diffusion模型家族,在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支援3B、8B和14B引數規模,包含基礎、指令和視覺語言變體。自推測模式透過擴散生成候選令牌,再由自迴歸驗證,無需輔助模型。在8B規模下,線性自推測較Qwen3-8B實現6倍前向令牌數,準確率63.61%,優於Qwen3-8B的62.75%。佈署靈活,適用於不同併發場景。
一份白皮書揭示,NVIDIA A100 GPU在報告利用率0%的情況下,功耗可達146.66瓦,暴露了GPU遙測中的關鍵盲點。作者提出新的能效基準(CEI)和開源最佳化器來檢測此類“幽靈”異常。
在今年的Google I/O大會上,NVIDIA和Google Cloud宣佈加速其聯合開發者社群中超過10萬名開發者的工作,提供精選學習路徑、實踐實驗室和活動,幫助他們在Google Cloud上使用全棧NVIDIA AI平臺進行構建。社群新增了JAX庫學習路徑、NVIDIA Dynamo codelab以及月度直播等活動。雙方還在JAX、NVIDIA Dynamo on GKE等開源框架上緊密合作,並整合了Google DeepMind的Gemma和NVIDIA Nemotron模型。此外,NVIDIA首次與Google DeepMind合作應用SynthID水印技術於NVIDIA Cosmos模型,確保AI生成內容的完整性。
2026年5月19日,NVIDIA Vera CPU正式交付給Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI等領先AI實驗室。Vera是一款專為代理式AI工作負載設計的獨立CPU,具備88個定製Olympus核心、1.2 TB/s記憶體頻寬和50%的單核效能提升。該CPU旨在處理AI代理所需的併發即時任務,如工具呼叫、編排和長上下文檢索。Oracle計劃從2026年開始部署數十萬個Vera CPU。
本研究針對Apple M3 Ultra(60核GPU,512 GB統一記憶體)進行了10階段的全面最佳化實驗,旨在實現即時相機img2img變換。透過結合蒸餾專用模型SDXS-512的CoreML轉換和3執行緒相機流水線,最終在512x512解析度下達到了22.7 FPS。研究揭示了CUDA平臺上的最佳化策略在Apple Silicon統一記憶體架構上並不有效,例如量化無法加速、並行推理無效以及神經引擎不適用於大規模模型,並提供了針對Apple Silicon的擴散模型推理實用指南。
SuperInfer是一種針對超級晶片(如NVIDIA GH200)上LLM推理的高效能系統,透過SLO感知的旋轉排程和全雙工記憶體管理,顯著提高TTFT SLO達標率,同時保持相當的TBT和吞吐量。
在戴爾科技世界大會上,戴爾和NVIDIA宣佈了新一代AI基礎設施,包括基於NVIDIA Vera Rubin NVL72的Dell PowerEdge XE9812,可將每個token的推理成本降低10倍。戴爾CEO邁克爾·戴爾表示,全球AI基礎設施支出到2030年可能達到3-4萬億美元,代幣消耗量增長3400%。NVIDIA CEO黃仁勳強調需求呈拋物線式增長。企業AI已從試點轉向大規模代理AI和推理部署。戴爾AI工廠與NVIDIA合作,提供從桌面到資料中心的全面AI解決方案,包括保密計算和開放模型支援。
輝達副總裁 Ian Buck 親手將首款 Vera CPU 系統交付給 Anthropic、OpenAI、SpaceXAI 和甲骨文雲基礎設施。Vera 專為智慧體 AI 工作負載設計,擁有 88 個定製核心、1.2 TB/s 記憶體頻寬和 50% 的單核效能提升。
本文介紹瞭如何透過引數高效微調技術LoRA和DoRA,在單個GPU上微調NVIDIA Cosmos Predict 2.5世界模型,生成用於機器人學習的合成影片軌跡。文章詳細說明了資料處理、介面卡初始化、訓練迴圈、推理方法及評估指標。
NVIDIA提出了一種基於NVFP4 4位微縮放格式的預訓練方法,該方法在Blackwell張量核心上原生支援,並透過訓練一個120億引數的混合Mamba-Transformer模型(使用10萬億token)進行了驗證。這是公開文獻中時間最長的4位預訓練執行。相比FP8基線(MMLU-Pro 5-shot準確率62.62%),NVFP4達到了62.58%,幾乎無損。該技術僅將線性層中的GEMM操作量化為NVFP4,而嵌入層、歸一化層、注意力機制等保持BF16或FP32。四種關鍵技術——選擇性高精度層、隨機哈達瑪變換、2D權重塊縮放和梯度隨機舍入——共同確保了訓練穩定性。與MXFP4相比,NVFP4在相同token預算下實現了更低的損失,且預計在GB200和GB300上分別實現2倍和3倍的算術吞吐量提升。
AI Foundry 在紐西蘭推出基於NVIDIA Blackwell GPU的固定費用無限LLM推理服務,使用者可透過登入頁面訪問。
百勝餐飲集團(Yum Brands)與輝達(Nvidia)合作,利用輝達技術加速AI開發,計劃在2025年第二季度在約500家餐廳(包括必勝客、塔可鍾、肯德基和哈位元漢堡)部署AI工具,涵蓋語音點餐、計算機視覺運營分析和AI分析,旨在提升效率並保持競爭優勢。
NVIDIA的SANA-WM是一個開源世界模型,能夠根據單張影像和相機軌跡生成60秒720p影片,訓練僅需64塊H100 GPU,推理可在單塊GPU上完成。其蒸餾變體在單塊RTX 5090上僅需34秒即可生成完整60秒720p影片。
隨著生成式AI融入日常運營與自主系統快速發展,企業重新評估將資料交給第三方模型的風險。EDB調查顯示70%高管認為主權AI平臺是關鍵。NVIDIA CEO黃仁勳呼籲各國建設自主AI基礎設施。本文基於2050多名高管調查,探討企業如何掌控模型與資料。
本文解釋瞭如何透過分離CPU和GPU工作負載來大幅提升推理效能。連續批處理透過緊密打包批次提高了GPU利用率,但同步操作導致CPU和GPU交替等待,造成近四分之一的執行時間浪費。透過使用非預設CUDA流和事件實現非同步批處理,可以讓CPU和GPU並行工作,消除空閒間隙,實現免費的24%加速。文章詳細介紹了CUDA流、事件機制以及如何將它們應用於連續批處理,並提供了在transformers庫中的實現程式碼。
本文介紹瞭如何透過Thunderbolt將桌面級NVIDIA RTX 5090 GPU連線到M4 MacBook Air,並在Linux虛擬機器中使用PCI直通技術實現遊戲和AI推理。文章詳細描述了技術挑戰,包括macOS缺乏驅動、PCI BAR對映導致的核心崩潰、DMA問題及解決方案,並提供了多項遊戲和AI基準測試結果。
NVIDIA與由AlphaGo架構師David Silver創立的倫敦AI實驗室Ineffable Intelligence達成工程級合作,共同開發大規模強化學習基礎設施。該合作旨在構建能夠支援透過試錯學習的AI系統的訓練管道,利用NVIDIA Grace Blackwell平臺並探索下一代Vera Rubin硬體。強化學習需即時生成資料並持續更新,對互連、記憶體頻寬和服務提出更高要求,有望推動AI超越人類資料,實現透過模擬和經驗自主發現新知識。
Hermes Agent 是一個開源的AI代理框架,由Nous Research開發,具有自我改進和可靠性的特點,已在GitHub上獲得超過14萬顆星。該框架與模型無關,最佳化用於本地執行,特別適合NVIDIA RTX PC和DGX Spark硬體。同時,阿里巴巴的Qwen 3.6模型(27B和35B引數)在效能上超越前代大型模型,是執行Hermes的理想選擇。
研究者推出了Hebatron,一款基於NVIDIA Nemotron-3稀疏MoE架構的希伯來語專用開源權重大語言模型。該模型在每輪前向傳播中僅啟用30億引數,卻能達到73.8%的希伯來語推理準確率,超越了之前的模型,並與Gemma-3-27B等更大規模的模型相抗衡,同時提供約9倍的推理吞吐量和高達65,536個token的上下文長度。
NVIDIA與SAP擴充套件合作,將NVIDIA OpenShell安全執行時嵌入SAP商業AI平臺,為企業部署自主AI代理提供安全與治理控制。
MinIO 釋出了 PB 級 MemKV 快取系統,專為 Nvidia GPU 推理設計,基於 AIStor 物件儲存。該系統相容 Nvidia STX 架構,透過端到端 RDMA 傳輸實現微秒級延遲,將 GPU 利用率從 50% 提升至 90% 以上,每年可節省 200 萬美元計算成本。
在SAP Sapphire大會上,NVIDIA與SAP宣佈擴大合作,將NVIDIA OpenShell整合到SAP Business AI平臺中,為企業執行專業AI代理提供安全與治理控制。
團隊利用Codex與GPT-5.5將研究創意轉化為可執行的實驗,並交付生產系統。
NVIDIA創始人兼CEO黃仁勳在卡內基梅隆大學第128屆畢業典禮上發表演講,鼓勵畢業生抓住AI革命的開端機遇。他將其與PC革命相提並論,強調AI將重塑每個行業,並呼籲負責任地推進AI發展,確保其惠及所有人。
輝達創始人兼CEO黃仁勳在卡內基梅隆大學2026屆畢業典禮上發表演講,鼓勵畢業生們抓住AI革命帶來的歷史性機遇,強調AI將改變每個行業,並呼籲負責任地推進AI發展。
一位資深Unix使用者回顧了從1990年代RISC工作站到現代基於ARM的AI工作站的演變,重點介紹了從執行Asahi Linux的Mac Studio遷移到將20核ARM CPU與強大GPU相結合的Dell Pro Max GB10(NVIDIA DGX Spark)的經歷,使得本地AI代理部署和資料科學任務成為可能。
本文作者探討了GitHub Copilot轉向按用量計費後的AI獨立之路。透過分析AI經濟學的陷阱,作者決定投資本地推理硬體以減少對大型AI供應商的依賴。文章詳細介紹了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬體方案,並解釋了推理過程中的記憶體頻寬瓶頸。
Crusoe與NVIDIA Dynamo合作開發了fastokens,一個開源的Rust BPE分詞器,平均速度比HuggingFace分詞器快9.1倍,在長上下文工作負載中TTFT最多降低40%。
Sakana AI與輝達合作,引入了新的稀疏資料結構與GPU核心,利用非結構化稀疏性提升大語言模型(LLM)的推理與訓練效率。該工作將在ICML 2026上展示。透過L1正則化,ReLU啟用的LLM可實現超過95%的稀疏性,且下游效能幾乎無損。基於自研的TwELL格式與融合多重矩陣乘法的CUDA核心,在H100 GPU上實現了批處理推理與訓練超過20%的加速,同時降低了能耗與記憶體需求。