NVIDIA研究推動機器人技術從模擬走向現實世界
在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。
- NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
- 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
公司追蹤
NVIDIA 最新 AI 新聞、產品、模型、生態和行業動態。
在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。
NVIDIA研究人員推出Polar框架,通過在智能體工具鏈和推理服務器之間放置模型API代理,實現無需修改智能體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。
AI工廠是新型基礎設施,實時將電能轉化為智能的生成單元——令牌。隨着代理型AI的擴展,每瓦性能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構優化以及NVIDIA的最新硬件如何提升效率。
提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG通過軌跡rollout的隨機擾動估計策略梯度,大幅減少批量渲染環境的數量以及計算和內存開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、內存使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬件上展示了有效的模擬到現實遷移。
本文提出R2P2分散式方法,通過規則分配推、支撐、阻止角色,並採用比例速度控制,實現多機器人協作推動箱體在不同傾斜度和摩擦力的地表(平坦、上坡、下坡)上運輸。該方法減少了通信與同步需求,避免單點故障。在NVIDIA IsaacSim仿真中,六機器人團隊驗證了其在不同地表和箱體質量下的泛化能力,成功率優於傳統虛擬領導者-跟隨者方法。實際實驗中,四台Turtlebot成功移動了1.2千克的箱體。
NightSight提出了一種輕量級感知方法,結合單目事件相機、編碼孔徑鏡頭和紅外點陣投影器,使小型飛行器能夠在完全黑暗的環境中自主導航。系統通過編碼孔徑產生深度相關的模糊特徵,並用卷積神經網絡解碼為密集深度圖,僅使用合成數據訓練即可零樣本泛化到真實場景。在NVIDIA Jetson Orin Nano上以20Hz實時運行,2.5米範圍內誤差僅7.0釐米(2.80%)。
隨着AI向智能體方向演進,對CPU提出了新要求:快速內核、海量內存帶寬以及全核高負載下的持續性能。Phoronix今日發佈的基準測試結果顯示,NVIDIA Vera CPU滿足這些需求。Vera採用88個定製Olympus核心,1.2TB/s內存帶寬,在功率效率內提供強勁性能。測試中,Vera在單插槽系統中展現了卓越的代碼編譯、文件壓縮、視頻轉碼等能力,並在STREAM TRIAD測試中實現了90%峯值帶寬,遠超傳統x86 CPU。與上一代Grace相比,Vera性能提升1.6倍,在多項測試中領先於Intel和AMD的最新處理器。NVIDIA已向主要AI公司和雲提供商交付首批Vera CPU,預計下半年通過合作伙伴上市。
儘管97%的電信高管正在評估或採用AI,但許多項目因“數據債務”——即分散、無治理且語義不清晰的數據——而停滯在規模化之前。NVIDIA的2025年報告指出,瓶頸並非模型質量,而是數據可用性。Databricks Unity Catalog通過統一的語義層和治理機制,實現跨系統數據聯邦、細粒度訪問控制和豐富的語義上下文,從而將AI從演示推向可信賴的生產系統。
瞭解如何構建一個多智能體活動審核系統,該系統利用NVIDIA NIM進行GPU加速推理、Amazon Bedrock AgentCore提供託管運行時、Strands Agents實現無服務器編排,支持並行推理、上下文持久化和可觀測性。
本教程詳細介紹瞭如何使用NVIDIA FLARE構建高級聯邦學習實驗,在非獨立同分布CIFAR-10數據集上比較FedAvg和FedProx算法。通過狄利克雷分佈模擬客户端的標籤不平衡,並使用NVFlare Job API定義和啓動聯邦任務,Client API處理本地訓練和模型交換。文章提供了完整的代碼實現和實驗結果可視化。
ServiceNow是一家美國企業軟件公司,總部位於加州聖克拉拉,全球員工超過29,000人。該公司大力投資AI和自動化,收購Passage AI、與NVIDIA合作、投入10億美元風投資金支持AI初創企業,並在加拿大投資1.1億加元推動公共部門AI應用。文章重點介紹兩個AI用例:利用生成式AI嵌入ITSM/CSM工作流,將解決記錄時間減少約80%;以及通過機器學習預測客户升級,使主動參與率從11%提升至68%,誤報率僅約3%。
本文介紹了PIMbot框架,該框架通過獎勵通道激勵操控和智能體自身策略操控兩種互補手段,對多機器人強化學習環境進行對抗性操控。自適應多目標控制器在線平衡這些手段。實驗在Gazebo仿真環境和NVIDIA Jetson Orin Nano真實嵌入式設備上驗證了效果,PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。
上週AI領域迎來重大轉折:Google發佈Gemini Omni及代理優先平台;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究發佈,包括HRM-Text高效預訓練範式、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。
Google 的 SynthID 水印系統正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 採用,標誌着 AI 內容檢測向共享行業標準轉變。
儘管被五角大樓列為供應鏈風險,Anthropic仍可能繼續向NSA提供AI模型。情報機構缺乏英偉達最新的Grace Blackwell芯片,而Anthropic的Mythos模型據稱也運行在較舊的硬件上。之前導致談判破裂的“任何合法用途”條款並未包含在此次協議中。
NVIDIA 推出的 Gated DeltaNet-2 是一種線性注意力層,通過通道級擦除門和寫入門解耦了記憶更新中的擦除與寫入操作。在 1.3B 參數、100B FineWeb-Edu 令牌上訓練,該模型在語言建模、常識推理和長上下文檢索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 長上下文檢索中提升顯著。
Meta推出了內部AI排行榜'Claudeonomics',通過代幣消耗追蹤員工AI工具使用情況,但因數據泄露而關閉。這一趨勢在行業內增長,Nvidia的Jensen Huang提議將AI代幣納入薪酬。
NVIDIA 發佈 Nemotron-Labs 擴散語言模型系列,通過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支持自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。
Mahjax是一個在JAX中實現的完全向量化立直麻將環境,可利用GPU進行大規模並行化,吞吐量達到在8塊NVIDIA A100 GPU上每秒200萬步(無紅寶牌規則)和100萬步(有紅寶牌規則)。該環境支持從零開始(tabula rasa)的強化學習訓練,並附有高質量可視化工具,實驗驗證了訓練智能體可以有效提升排名。
在COMPUTEX的NVIDIA GTC台北站上,全球開發者、研究人員和行業領袖齊聚一堂,探討AI工廠、擴展基礎設施、代理式AI及物理AI等領域的突破性進展。NVIDIA創始人兼CEO黃仁勳將於6月1日上午11點(台北時間)發表主題演講。本文提供實時更新,包括NVIDIA Vera Rubin NVL72、Jetson Thor和Alpamayo在COMPUTEX 2026最佳選擇獎中獲獎詳情。
阿里巴巴推出新AI芯片和模型,旨在減少對Nvidia芯片的依賴,實現全棧AI戰略。
NVIDIA推出Nemotron-Labs-Diffusion模型家族,在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支持3B、8B和14B參數規模,包含基礎、指令和視覺語言變體。自推測模式通過擴散生成候選令牌,再由自迴歸驗證,無需輔助模型。在8B規模下,線性自推測較Qwen3-8B實現6倍前向令牌數,準確率63.61%,優於Qwen3-8B的62.75%。佈署靈活,適用於不同併發場景。
一份白皮書揭示,NVIDIA A100 GPU在報告利用率0%的情況下,功耗可達146.66瓦,暴露了GPU遙測中的關鍵盲點。作者提出新的能效基準(CEI)和開源優化器來檢測此類“幽靈”異常。
在今年的Google I/O大會上,NVIDIA和Google Cloud宣佈加速其聯合開發者社區中超過10萬名開發者的工作,提供精選學習路徑、實踐實驗室和活動,幫助他們在Google Cloud上使用全棧NVIDIA AI平台進行構建。社區新增了JAX庫學習路徑、NVIDIA Dynamo codelab以及月度直播等活動。雙方還在JAX、NVIDIA Dynamo on GKE等開源框架上緊密合作,並整合了Google DeepMind的Gemma和NVIDIA Nemotron模型。此外,NVIDIA首次與Google DeepMind合作應用SynthID水印技術於NVIDIA Cosmos模型,確保AI生成內容的完整性。
2026年5月19日,NVIDIA Vera CPU正式交付給Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI等領先AI實驗室。Vera是一款專為代理式AI工作負載設計的獨立CPU,具備88個定製Olympus核心、1.2 TB/s內存帶寬和50%的單核性能提升。該CPU旨在處理AI代理所需的併發實時任務,如工具調用、編排和長上下文檢索。Oracle計劃從2026年開始部署數十萬個Vera CPU。
本研究針對Apple M3 Ultra(60核GPU,512 GB統一內存)進行了10階段的全面優化實驗,旨在實現實時相機img2img變換。通過結合蒸餾專用模型SDXS-512的CoreML轉換和3線程相機流水線,最終在512x512分辨率下達到了22.7 FPS。研究揭示了CUDA平台上的優化策略在Apple Silicon統一內存架構上並不有效,例如量化無法加速、並行推理無效以及神經引擎不適用於大規模模型,並提供了針對Apple Silicon的擴散模型推理實用指南。
SuperInfer是一種針對超級芯片(如NVIDIA GH200)上LLM推理的高性能系統,通過SLO感知的旋轉調度和全雙工內存管理,顯著提高TTFT SLO達標率,同時保持相當的TBT和吞吐量。
在戴爾科技世界大會上,戴爾和NVIDIA宣佈了新一代AI基礎設施,包括基於NVIDIA Vera Rubin NVL72的Dell PowerEdge XE9812,可將每個token的推理成本降低10倍。戴爾CEO邁克爾·戴爾表示,全球AI基礎設施支出到2030年可能達到3-4萬億美元,代幣消耗量增長3400%。NVIDIA CEO黃仁勳強調需求呈拋物線式增長。企業AI已從試點轉向大規模代理AI和推理部署。戴爾AI工廠與NVIDIA合作,提供從桌面到數據中心的全面AI解決方案,包括保密計算和開放模型支持。
英偉達副總裁 Ian Buck 親手將首款 Vera CPU 系統交付給 Anthropic、OpenAI、SpaceXAI 和甲骨文雲基礎設施。Vera 專為智能體 AI 工作負載設計,擁有 88 個定製內核、1.2 TB/s 內存帶寬和 50% 的單核性能提升。
本文介紹瞭如何通過參數高效微調技術LoRA和DoRA,在單個GPU上微調NVIDIA Cosmos Predict 2.5世界模型,生成用於機器人學習的合成視頻軌跡。文章詳細説明了數據處理、適配器初始化、訓練循環、推理方法及評估指標。
NVIDIA提出了一種基於NVFP4 4位微縮放格式的預訓練方法,該方法在Blackwell張量核心上原生支持,並通過訓練一個120億參數的混合Mamba-Transformer模型(使用10萬億token)進行了驗證。這是公開文獻中時間最長的4位預訓練運行。相比FP8基線(MMLU-Pro 5-shot準確率62.62%),NVFP4達到了62.58%,幾乎無損。該技術僅將線性層中的GEMM操作量化為NVFP4,而嵌入層、歸一化層、注意力機制等保持BF16或FP32。四種關鍵技術——選擇性高精度層、隨機哈達瑪變換、2D權重塊縮放和梯度隨機舍入——共同確保了訓練穩定性。與MXFP4相比,NVFP4在相同token預算下實現了更低的損失,且預計在GB200和GB300上分別實現2倍和3倍的算術吞吐量提升。
AI Foundry 在新西蘭推出基於NVIDIA Blackwell GPU的固定費用無限LLM推理服務,用户可通過登錄頁面訪問。
百勝餐飲集團(Yum Brands)與英偉達(Nvidia)合作,利用英偉達技術加速AI開發,計劃在2025年第二季度在約500家餐廳(包括必勝客、塔可鍾、肯德基和哈比特漢堡)部署AI工具,涵蓋語音點餐、計算機視覺運營分析和AI分析,旨在提升效率並保持競爭優勢。
NVIDIA的SANA-WM是一個開源世界模型,能夠根據單張圖像和相機軌跡生成60秒720p視頻,訓練僅需64塊H100 GPU,推理可在單塊GPU上完成。其蒸餾變體在單塊RTX 5090上僅需34秒即可生成完整60秒720p視頻。
隨着生成式AI融入日常運營與自主系統快速發展,企業重新評估將數據交給第三方模型的風險。EDB調查顯示70%高管認為主權AI平台是關鍵。NVIDIA CEO黃仁勳呼籲各國建設自主AI基礎設施。本文基於2050多名高管調查,探討企業如何掌控模型與數據。
本文解釋瞭如何通過分離CPU和GPU工作負載來大幅提升推理性能。連續批處理通過緊密打包批次提高了GPU利用率,但同步操作導致CPU和GPU交替等待,造成近四分之一的運行時間浪費。通過使用非默認CUDA流和事件實現異步批處理,可以讓CPU和GPU並行工作,消除空閒間隙,實現免費的24%加速。文章詳細介紹了CUDA流、事件機制以及如何將它們應用於連續批處理,並提供了在transformers庫中的實現代碼。
本文介紹瞭如何通過Thunderbolt將桌面級NVIDIA RTX 5090 GPU連接到M4 MacBook Air,並在Linux虛擬機中使用PCI直通技術實現遊戲和AI推理。文章詳細描述了技術挑戰,包括macOS缺乏驅動、PCI BAR映射導致的內核崩潰、DMA問題及解決方案,並提供了多項遊戲和AI基準測試結果。
NVIDIA與由AlphaGo架構師David Silver創立的倫敦AI實驗室Ineffable Intelligence達成工程級合作,共同開發大規模強化學習基礎設施。該合作旨在構建能夠支持通過試錯學習的AI系統的訓練管道,利用NVIDIA Grace Blackwell平台並探索下一代Vera Rubin硬件。強化學習需實時生成數據並持續更新,對互連、內存帶寬和服務提出更高要求,有望推動AI超越人類數據,實現通過模擬和經驗自主發現新知識。
Hermes Agent 是一個開源的AI代理框架,由Nous Research開發,具有自我改進和可靠性的特點,已在GitHub上獲得超過14萬顆星。該框架與模型無關,優化用於本地運行,特別適合NVIDIA RTX PC和DGX Spark硬件。同時,阿里巴巴的Qwen 3.6模型(27B和35B參數)在性能上超越前代大型模型,是運行Hermes的理想選擇。
研究者推出了Hebatron,一款基於NVIDIA Nemotron-3稀疏MoE架構的希伯來語專用開源權重大語言模型。該模型在每輪前向傳播中僅激活30億參數,卻能達到73.8%的希伯來語推理準確率,超越了之前的模型,並與Gemma-3-27B等更大規模的模型相抗衡,同時提供約9倍的推理吞吐量和高達65,536個token的上下文長度。
NVIDIA與SAP擴展合作,將NVIDIA OpenShell安全運行時嵌入SAP商業AI平台,為企業部署自主AI代理提供安全與治理控制。
MinIO 發佈了 PB 級 MemKV 緩存系統,專為 Nvidia GPU 推理設計,基於 AIStor 對象存儲。該系統兼容 Nvidia STX 架構,通過端到端 RDMA 傳輸實現微秒級延遲,將 GPU 利用率從 50% 提升至 90% 以上,每年可節省 200 萬美元計算成本。
在SAP Sapphire大會上,NVIDIA與SAP宣佈擴大合作,將NVIDIA OpenShell集成到SAP Business AI平台中,為企業運行專業AI代理提供安全與治理控制。
團隊利用Codex與GPT-5.5將研究創意轉化為可執行的實驗,並交付生產系統。
NVIDIA創始人兼CEO黃仁勳在卡內基梅隆大學第128屆畢業典禮上發表演講,鼓勵畢業生抓住AI革命的開端機遇。他將其與PC革命相提並論,強調AI將重塑每個行業,並呼籲負責任地推進AI發展,確保其惠及所有人。
英偉達創始人兼CEO黃仁勳在卡內基梅隆大學2026屆畢業典禮上發表演講,鼓勵畢業生們抓住AI革命帶來的歷史性機遇,強調AI將改變每個行業,並呼籲負責任地推進AI發展。
一位資深Unix用户回顧了從1990年代RISC工作站到現代基於ARM的AI工作站的演變,重點介紹了從運行Asahi Linux的Mac Studio遷移到將20核ARM CPU與強大GPU相結合的Dell Pro Max GB10(NVIDIA DGX Spark)的經歷,使得本地AI代理部署和數據科學任務成為可能。
本文作者探討了GitHub Copilot轉向按用量計費後的AI獨立之路。通過分析AI經濟學的陷阱,作者決定投資本地推理硬件以減少對大型AI供應商的依賴。文章詳細介紹了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬件方案,並解釋了推理過程中的內存帶寬瓶頸。
Crusoe與NVIDIA Dynamo合作開發了fastokens,一個開源的Rust BPE分詞器,平均速度比HuggingFace分詞器快9.1倍,在長上下文工作負載中TTFT最多降低40%。
Sakana AI與英偉達合作,引入了新的稀疏數據結構與GPU內核,利用非結構化稀疏性提升大語言模型(LLM)的推理與訓練效率。該工作將在ICML 2026上展示。通過L1正則化,ReLU激活的LLM可實現超過95%的稀疏性,且下游性能幾乎無損。基於自研的TwELL格式與融合多重矩陣乘法的CUDA內核,在H100 GPU上實現了批處理推理與訓練超過20%的加速,同時降低了能耗與內存需求。