AI News HubLIVE

來源分布

  • Hacker News AI13
  • NVIDIA Blog12
  • MarkTechPost6
  • arXiv Robotics4
  • Hugging Face Blog3
  • AIwire2
  • AI Business1
  • arXiv AI1

主題分布

  • 晶片50
  • Agent30
  • 研究17
  • 模型14
  • 政策5
  • 創業融資1
  • 機器人1

日期線

  • 2026-05-186
  • 2026-05-245
  • 2026-05-275
  • 2026-05-104
  • 2026-05-124
  • 2026-05-134
  • 2026-05-194
  • 2026-05-203

最新動態

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站內正文

NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

AI工廠:智慧時代的新基礎設施

AI工廠是新型基礎設施,即時將電能轉化為智慧的生成單元——令牌。隨著代理型AI的擴充套件,每瓦效能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構最佳化以及NVIDIA的最新硬體如何提升效率。

  • AI工廠將電能轉化為令牌,是智慧時代的“發電廠”。
  • 代理型AI使推理工作負載更深更復雜,要求即時協調。
站內正文

基於隨機解耦策略梯度的高效線上視覺強化學習方法

提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG透過軌跡rollout的隨機擾動估計策略梯度,大幅減少批次渲染環境的數量以及計算和記憶體開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、記憶體使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬體上展示了有效的模擬到現實遷移。

  • 提出SDPG方法,在單塊RTX 4080 GPU上數小時內完成訓練。
  • 透過隨機擾動估計策略梯度,顯著降低計算和記憶體開銷。
站內正文

多機器人協作箱體運輸:基於角色分散式比例控制的地表適應性方法

本文提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制,實現多機器人協作推動箱體在不同傾斜度和摩擦力的地表(平坦、上坡、下坡)上運輸。該方法減少了通訊與同步需求,避免單點故障。在NVIDIA IsaacSim模擬中,六機器人團隊驗證了其在不同地表和箱體質量下的泛化能力,成功率優於傳統虛擬領導者-跟隨者方法。實際實驗中,四臺Turtlebot成功移動了1.2千克的箱體。

  • 提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制。
  • 支援不同傾斜度(平坦、上坡、下坡)和摩擦係數的地表,適應不同箱體質量。
站內正文

NightSight:利用事件相機在黑暗環境中進行被動導航

NightSight提出了一種輕量級感知方法,結合單目事件相機、編碼孔徑鏡頭和紅外點陣投影器,使小型飛行器能夠在完全黑暗的環境中自主導航。系統透過編碼孔徑產生深度相關的模糊特徵,並用卷積神經網路解碼為密集深度圖,僅使用合成資料訓練即可零樣本泛化到真實場景。在NVIDIA Jetson Orin Nano上以20Hz即時執行,2.5米範圍內誤差僅7.0釐米(2.80%)。

  • 結合事件相機、編碼孔徑和紅外投影,實現黑暗中的被動深度感知
  • 僅用合成資料訓練的CNN可零樣本泛化到複雜真實場景
站內正文

NVIDIA Vera CPU 對競爭對手“重拳出擊”

隨著AI向智慧體方向演進,對CPU提出了新要求:快速核心、海量記憶體頻寬以及全核高負載下的持續效能。Phoronix今日釋出的基準測試結果顯示,NVIDIA Vera CPU滿足這些需求。Vera採用88個定製Olympus核心,1.2TB/s記憶體頻寬,在功率效率內提供強勁效能。測試中,Vera在單插槽系統中展現了卓越的程式碼編譯、檔案壓縮、影片轉碼等能力,並在STREAM TRIAD測試中實現了90%峰值頻寬,遠超傳統x86 CPU。與上一代Grace相比,Vera效能提升1.6倍,在多項測試中領先於Intel和AMD的最新處理器。NVIDIA已向主要AI公司和雲提供商交付首批Vera CPU,預計下半年透過合作伙伴上市。

  • Vera CPU針對智慧體AI工作負載設計,擁有88個定製的Olympus核心和1.2TB/s記憶體頻寬。
  • Phoronix測試顯示,Vera在單插槽系統中比前代Grace效能提升1.6倍,且領先於最新的x86處理器。
站內正文

電信行業的人工智慧就緒性

儘管97%的電信高管正在評估或採用AI,但許多專案因“資料債務”——即分散、無治理且語義不清晰的資料——而停滯在規模化之前。NVIDIA的2025年報告指出,瓶頸並非模型質量,而是資料可用性。Databricks Unity Catalog透過統一的語義層和治理機制,實現跨系統資料聯邦、細粒度訪問控制和豐富的語義上下文,從而將AI從演示推向可信賴的生產系統。

  • 97%的電信高管採用AI,但專案因資料債務停滯。
  • 資料碎片化和缺乏語義上下文是主要障礙。
站內正文

使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore構建高效能生成式AI系統

瞭解如何構建一個多智慧體活動稽核系統,該系統利用NVIDIA NIM進行GPU加速推理、Amazon Bedrock AgentCore提供託管執行時、Strands Agents實現無伺服器編排,支援並行推理、上下文持久化和可觀測性。

  • 結合NVIDIA NIM、Amazon Bedrock AgentCore和Strands Agents,實現高效能多智慧體AI系統。
  • 支援並行推理、上下文持久化和可追蹤的執行路徑。
站內正文

使用NVIDIA FLARE構建並比較非獨立同分布CIFAR-10上的FedAvg與FedProx聯邦學習分步指南

本教程詳細介紹瞭如何使用NVIDIA FLARE構建高階聯邦學習實驗,在非獨立同分布CIFAR-10資料集上比較FedAvg和FedProx演算法。透過狄利克雷分佈模擬客戶端的標籤不平衡,並使用NVFlare Job API定義和啟動聯邦任務,Client API處理本地訓練和模型交換。文章提供了完整的程式碼實現和實驗結果視覺化。

  • 使用NVIDIA FLARE構建聯邦學習實驗,比較FedAvg與FedProx。
  • 採用狄利克雷分佈(alpha=0.3)將CIFAR-10資料劃分為3個非獨立同分布客戶端。
站內正文

ServiceNow的人工智慧應用

ServiceNow是一家美國企業軟體公司,總部位於加州聖克拉拉,全球員工超過29,000人。該公司大力投資AI和自動化,收購Passage AI、與NVIDIA合作、投入10億美元風投資金支援AI初創企業,並在加拿大投資1.1億加元推動公共部門AI應用。文章重點介紹兩個AI用例:利用生成式AI嵌入ITSM/CSM工作流,將解決記錄時間減少約80%;以及透過機器學習預測客戶升級,使主動參與率從11%提升至68%,誤報率僅約3%。

  • ServiceNow透過收購、合作和風投鉅額投資AI,其Now Assist工具將客服文件時間減少80%。
  • 利用預測性智慧和事件管理,主動識別高風險客戶,將主動參與率從11%提升至68%,誤報率僅3%。
站內正文

PIMbot:一種用於多機器人強化學習對抗性操控的自適應攻擊框架

本文介紹了PIMbot框架,該框架透過獎勵通道激勵操控和智慧體自身策略操控兩種互補手段,對多機器人強化學習環境進行對抗性操控。自適應多目標控制器線上平衡這些手段。實驗在Gazebo模擬環境和NVIDIA Jetson Orin Nano真實嵌入式裝置上驗證了效果,PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。

  • PIMbot利用獎勵操控和策略操控兩種槓桿,實現對多機器人強化學習結果的操縱。
  • 自適應多目標控制器線上平衡兩種操控手段。
站內正文

The Sequence Radar #865:上週AI回顧:Karpathy、Google、Colossus與即將到來的IPO浪潮

上週AI領域迎來重大轉折:Google釋出Gemini Omni及代理優先平臺;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究釋出,包括HRM-Text高效預訓練正規化、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。

  • Google在I/O大會上推出Gemini Omni多模態模型和代理優先平臺Antigravity,整合TPU 8i實現垂直整合。
  • Andrej Karpathy加入Anthropic,組建團隊利用Claude加速預訓練研究,標誌著自我改進迴圈的實質性進展。
站內正文

OpenAI 和 Nvidia 正在使用 Google 的 SynthID 為 AI 內容新增水印

Google 的 SynthID 水印系統正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 採用,標誌著 AI 內容檢測向共享行業標準轉變。

  • SynthID 直接將水印嵌入畫素和音訊波形,使其比後設資料更難移除。
  • OpenAI、Nvidia、ElevenLabs 和 Kakao 現在將 SynthID 用於其影像、影片和語音生成工具。
站內正文

Anthropic或被允許繼續向NSA提供Claude,儘管五角大樓將其標記為供應鏈風險

儘管被五角大樓列為供應鏈風險,Anthropic仍可能繼續向NSA提供AI模型。情報機構缺乏輝達最新的Grace Blackwell晶片,而Anthropic的Mythos模型據稱也執行在較舊的硬體上。之前導致談判破裂的“任何合法用途”條款並未包含在此次協議中。

  • Anthropic可能繼續向NSA供應AI模型,儘管被五角大樓視為供應鏈風險。
  • 情報機構缺少輝達最新的Grace Blackwell晶片。
站內正文

NVIDIA AI 釋出 Gated DeltaNet-2:一種在 Delta 規則中解耦擦除和寫入的線性注意力層

NVIDIA 推出的 Gated DeltaNet-2 是一種線性注意力層,透過通道級擦除門和寫入門解耦了記憶更新中的擦除與寫入操作。在 1.3B 引數、100B FineWeb-Edu 令牌上訓練,該模型在語言建模、常識推理和長上下文檢索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 長上下文檢索中提升顯著。

  • Gated DeltaNet-2 將標量門分解為通道級的擦除門(鍵軸)和寫入門(值軸),分別控制舊內容的擦除和新內容的寫入。
  • 該模型在 1.3B 引數下訓練於 100B FineWeb-Edu 令牌,與基線模型相比,在多種基準測試中取得最佳平均表現。
站內正文

Meta的Claudeonomics排行榜

Meta推出了內部AI排行榜'Claudeonomics',透過代幣消耗追蹤員工AI工具使用情況,但因資料洩露而關閉。這一趨勢在行業內增長,Nvidia的Jensen Huang提議將AI代幣納入薪酬。

  • Meta的內部AI排行榜'Claudeonomics'根據代幣消耗對員工進行排名,並設有'代幣傳奇'等徽章。
  • 該排行榜因內部使用資料被公開分享而關閉。
站內正文

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。

  • Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
  • 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
站內正文

Mahjax:一個用於JAX中強化學習的高效能GPU加速麻將模擬器

Mahjax是一個在JAX中實現的完全向量化立直麻將環境,可利用GPU進行大規模並行化,吞吐量達到在8塊NVIDIA A100 GPU上每秒200萬步(無紅寶牌規則)和100萬步(有紅寶牌規則)。該環境支援從零開始(tabula rasa)的強化學習訓練,並附有高質量視覺化工具,實驗驗證了訓練智慧體可以有效提升排名。

  • Mahjax是基於JAX的完全向量化立直麻將模擬器,支援GPU並行化。
  • 在8塊NVIDIA A100 GPU上,每秒可處理多達200萬步(無紅寶牌規則)。
站內正文

NVIDIA GTC臺北站COMPUTEX:AI未來最新動態即時更新

在COMPUTEX的NVIDIA GTC臺北站上,全球開發者、研究人員和行業領袖齊聚一堂,探討AI工廠、擴充套件基礎設施、代理式AI及物理AI等領域的突破性進展。NVIDIA創始人兼CEO黃仁勳將於6月1日上午11點(臺北時間)發表主題演講。本文提供即時更新,包括NVIDIA Vera Rubin NVL72、Jetson Thor和Alpamayo在COMPUTEX 2026最佳選擇獎中獲獎詳情。

  • NVIDIA在COMPUTEX 2026最佳選擇獎中榮獲多項大獎,涵蓋AI工廠、機器人和自動駕駛技術。
  • Vera Rubin NVL72獲得金獎和可持續技術特別獎,推理效能每瓦提升10倍,成本降低10倍。
站內正文

阿里巴巴以新AI晶片和模型謀求獨立

阿里巴巴推出新AI晶片和模型,旨在減少對Nvidia晶片的依賴,實現全棧AI戰略。

  • 阿里巴巴釋出新AI晶片,突顯其全棧AI戰略
  • 公司努力擺脫對Nvidia AI晶片的依賴
站內正文

NVIDIA釋出Nemotron-Labs-Diffusion:三模式語言模型,前向令牌數達Qwen3-8B的6倍

NVIDIA推出Nemotron-Labs-Diffusion模型家族,在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支援3B、8B和14B引數規模,包含基礎、指令和視覺語言變體。自推測模式透過擴散生成候選令牌,再由自迴歸驗證,無需輔助模型。在8B規模下,線性自推測較Qwen3-8B實現6倍前向令牌數,準確率63.61%,優於Qwen3-8B的62.75%。佈署靈活,適用於不同併發場景。

  • Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型,統一自迴歸、擴散和自推測解碼於一體,無需修改架構。
  • 8B模型自推測模式可達5.99×令牌/前向,準確率63.61%,超過Qwen3-8B。
站內正文

GPU遙測異常:A100閒置功耗達146瓦(白皮書)

一份白皮書揭示,NVIDIA A100 GPU在報告利用率0%的情況下,功耗可達146.66瓦,暴露了GPU遙測中的關鍵盲點。作者提出新的能效基準(CEI)和開源最佳化器來檢測此類“幽靈”異常。

  • 報告的GPU利用率可能為0%,但實際功耗超過146瓦,導致隱藏的能源浪費。
  • NVIDIA的MIG分析限制在多租戶雲環境中造成可觀測性缺口。
站內正文

NVIDIA與Google Cloud賦能新一代AI構建者

在今年的Google I/O大會上,NVIDIA和Google Cloud宣佈加速其聯合開發者社群中超過10萬名開發者的工作,提供精選學習路徑、實踐實驗室和活動,幫助他們在Google Cloud上使用全棧NVIDIA AI平臺進行構建。社群新增了JAX庫學習路徑、NVIDIA Dynamo codelab以及月度直播等活動。雙方還在JAX、NVIDIA Dynamo on GKE等開源框架上緊密合作,並整合了Google DeepMind的Gemma和NVIDIA Nemotron模型。此外,NVIDIA首次與Google DeepMind合作應用SynthID水印技術於NVIDIA Cosmos模型,確保AI生成內容的完整性。

  • NVIDIA和Google Cloud聯合開發者社群已吸引超過10萬名開發者,提供AI技能提升資源。
  • 新增JAX學習路徑、Dynamo codelab和月度開發直播。
站內正文

NVIDIA Vera CPU抵達頂尖AI實驗室,代理式AI需求增長

2026年5月19日,NVIDIA Vera CPU正式交付給Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI等領先AI實驗室。Vera是一款專為代理式AI工作負載設計的獨立CPU,具備88個定製Olympus核心、1.2 TB/s記憶體頻寬和50%的單核效能提升。該CPU旨在處理AI代理所需的併發即時任務,如工具呼叫、編排和長上下文檢索。Oracle計劃從2026年開始部署數十萬個Vera CPU。

  • NVIDIA Vera CPU已交付給Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI。
  • Vera配備88個定製Olympus核心,1.2 TB/s記憶體頻寬,單核效能提升50%。
站內正文

Apple M3 Ultra上即時擴散模型推理的系統最佳化

本研究針對Apple M3 Ultra(60核GPU,512 GB統一記憶體)進行了10階段的全面最佳化實驗,旨在實現即時相機img2img變換。透過結合蒸餾專用模型SDXS-512的CoreML轉換和3執行緒相機流水線,最終在512x512解析度下達到了22.7 FPS。研究揭示了CUDA平臺上的最佳化策略在Apple Silicon統一記憶體架構上並不有效,例如量化無法加速、並行推理無效以及神經引擎不適用於大規模模型,並提供了針對Apple Silicon的擴散模型推理實用指南。

  • 在Apple M3 Ultra上進行了10個階段的系統最佳化實驗,涉及CoreML轉換、量化、Token Merging、神經引擎等多種技術。
  • 透過CoreML轉換SDXS-512模型並搭配3執行緒相機流水線,實現了22.7 FPS的即時影像到影像變換。
站內正文

SuperInfer:面向LLM推理的SLO感知旋轉排程與記憶體管理

SuperInfer是一種針對超級晶片(如NVIDIA GH200)上LLM推理的高效能系統,透過SLO感知的旋轉排程和全雙工記憶體管理,顯著提高TTFT SLO達標率,同時保持相當的TBT和吞吐量。

  • 創新提出RotaSched,首個主動式、SLO感知的旋轉排程器,根據延遲緊迫性旋轉請求狀態。
  • DuplexKV引擎利用NVLink-C2C實現全雙工KV快取傳輸,突破PCIe頻寬瓶頸。
站內正文

NVIDIA CEO黃仁勳在戴爾科技世界大會上表示:“需求呈拋物線式增長,完全呈拋物線式增長”

在戴爾科技世界大會上,戴爾和NVIDIA宣佈了新一代AI基礎設施,包括基於NVIDIA Vera Rubin NVL72的Dell PowerEdge XE9812,可將每個token的推理成本降低10倍。戴爾CEO邁克爾·戴爾表示,全球AI基礎設施支出到2030年可能達到3-4萬億美元,代幣消耗量增長3400%。NVIDIA CEO黃仁勳強調需求呈拋物線式增長。企業AI已從試點轉向大規模代理AI和推理部署。戴爾AI工廠與NVIDIA合作,提供從桌面到資料中心的全面AI解決方案,包括保密計算和開放模型支援。

  • 戴爾和NVIDIA推出基於Vera Rubin NVL72的新伺服器,推理成本降低10倍。
  • 戴爾CEO預測AI基礎設施支出將達到數萬億美元。
站內正文

Vera 到來:輝達首款為智慧體打造的 CPU 抵達頂級 AI 實驗室

輝達副總裁 Ian Buck 親手將首款 Vera CPU 系統交付給 Anthropic、OpenAI、SpaceXAI 和甲骨文雲基礎設施。Vera 專為智慧體 AI 工作負載設計,擁有 88 個定製核心、1.2 TB/s 記憶體頻寬和 50% 的單核效能提升。

  • 輝達 Vera CPU 是首款為智慧體 AI 設計的定製 CPU,已交付給頂級 AI 實驗室。
  • 副總裁 Ian Buck 親自將系統送到 Anthropic、OpenAI、SpaceXAI 和甲骨文手中。
站內正文

使用LoRA/DoRA微調NVIDIA Cosmos Predict 2.5以生成機器人影片

本文介紹瞭如何透過引數高效微調技術LoRA和DoRA,在單個GPU上微調NVIDIA Cosmos Predict 2.5世界模型,生成用於機器人學習的合成影片軌跡。文章詳細說明了資料處理、介面卡初始化、訓練迴圈、推理方法及評估指標。

  • LoRA和DoRA允許在凍結基模型的情況下,透過小型可訓練介面卡進行高效微調,避免災難性遺忘並降低記憶體需求。
  • 訓練使用92個機器人操作影片資料集,透過rectified flow損失函式和MSE損失進行最佳化。
站內正文

NVIDIA引入基於NVFP4的4位預訓練方法,在10T Token規模下驗證12B混合Mamba-Transformer模型

NVIDIA提出了一種基於NVFP4 4位微縮放格式的預訓練方法,該方法在Blackwell張量核心上原生支援,並透過訓練一個120億引數的混合Mamba-Transformer模型(使用10萬億token)進行了驗證。這是公開文獻中時間最長的4位預訓練執行。相比FP8基線(MMLU-Pro 5-shot準確率62.62%),NVFP4達到了62.58%,幾乎無損。該技術僅將線性層中的GEMM操作量化為NVFP4,而嵌入層、歸一化層、注意力機制等保持BF16或FP32。四種關鍵技術——選擇性高精度層、隨機哈達瑪變換、2D權重塊縮放和梯度隨機舍入——共同確保了訓練穩定性。與MXFP4相比,NVFP4在相同token預算下實現了更低的損失,且預計在GB200和GB300上分別實現2倍和3倍的算術吞吐量提升。

  • NVIDIA的NVFP4 4位微縮放格式在Blackwell張量核心上原生支援,僅將線性層GEMM量化為4位,其餘部分保持高精度。
  • 在12B混合Mamba-Transformer上使用10T token訓練,MMLU-Pro準確率62.58% vs FP8基線62.62%,幾乎無損失。
站內正文

Yum Brands與Nvidia合作:將在500家餐廳部署新AI

百勝餐飲集團(Yum Brands)與輝達(Nvidia)合作,利用輝達技術加速AI開發,計劃在2025年第二季度在約500家餐廳(包括必勝客、塔可鍾、肯德基和哈位元漢堡)部署AI工具,涵蓋語音點餐、計算機視覺運營分析和AI分析,旨在提升效率並保持競爭優勢。

  • Yum Brands與Nvidia合作,成為輝達首家餐廳合作伙伴。
  • AI部署聚焦語音點餐、計算機視覺(含即時勞動力監控)和餐廳級分析。
站內正文

NVIDIA推出SANA-WM:一個26億引數的開源世界模型,可在單GPU上生成分鐘級720p影片

NVIDIA的SANA-WM是一個開源世界模型,能夠根據單張影像和相機軌跡生成60秒720p影片,訓練僅需64塊H100 GPU,推理可在單塊GPU上完成。其蒸餾變體在單塊RTX 5090上僅需34秒即可生成完整60秒720p影片。

  • SANA-WM從單張影像和6自由度相機軌跡生成60秒720p影片。
  • 採用混合線性注意力(門控DeltaNet)和雙分支相機控制,實現高效長序列生成。
站內正文

在自主系統時代建立AI和資料主權

隨著生成式AI融入日常運營與自主系統快速發展,企業重新評估將資料交給第三方模型的風險。EDB調查顯示70%高管認為主權AI平臺是關鍵。NVIDIA CEO黃仁勳呼籲各國建設自主AI基礎設施。本文基於2050多名高管調查,探討企業如何掌控模型與資料。

  • 企業擔憂使用雲端AI模型導致智慧財產權流失和競爭地位削弱
  • 70%的全球高管認為需要主權資料和AI平臺以確保成功
站內正文

在連續批處理中解鎖非同步性

本文解釋瞭如何透過分離CPU和GPU工作負載來大幅提升推理效能。連續批處理透過緊密打包批次提高了GPU利用率,但同步操作導致CPU和GPU交替等待,造成近四分之一的執行時間浪費。透過使用非預設CUDA流和事件實現非同步批處理,可以讓CPU和GPU並行工作,消除空閒間隙,實現免費的24%加速。文章詳細介紹了CUDA流、事件機制以及如何將它們應用於連續批處理,並提供了在transformers庫中的實現程式碼。

  • 同步連續批處理中CPU和GPU交替工作,導致GPU空閒時間佔比約24%。
  • 使用非預設CUDA流和事件可以實現CPU和GPU的並行執行。
站內正文

現在你可以將Thunderbolt外接GPU連線到Mac上玩遊戲和加速AI

本文介紹瞭如何透過Thunderbolt將桌面級NVIDIA RTX 5090 GPU連線到M4 MacBook Air,並在Linux虛擬機器中使用PCI直通技術實現遊戲和AI推理。文章詳細描述了技術挑戰,包括macOS缺乏驅動、PCI BAR對映導致的核心崩潰、DMA問題及解決方案,並提供了多項遊戲和AI基準測試結果。

  • 使用Thunderbolt外接GPU到Mac,需透過PCI直通到Linux虛擬機器。
  • macOS Apple Silicon不提供NVIDIA/AMD GPU驅動,需藉助Hypervisor.framework。
站內正文

NVIDIA與Ineffable Intelligence攜手構建強化學習基礎設施的未來

NVIDIA與由AlphaGo架構師David Silver創立的倫敦AI實驗室Ineffable Intelligence達成工程級合作,共同開發大規模強化學習基礎設施。該合作旨在構建能夠支援透過試錯學習的AI系統的訓練管道,利用NVIDIA Grace Blackwell平臺並探索下一代Vera Rubin硬體。強化學習需即時生成資料並持續更新,對互連、記憶體頻寬和服務提出更高要求,有望推動AI超越人類資料,實現透過模擬和經驗自主發現新知識。

  • NVIDIA與Ineffable Intelligence合作,設計大規模強化學習基礎設施。
  • 強化學習系統透過試錯學習,需即時生成資料並持續更新,對硬體要求更高。
站內正文

Hermes 解鎖自我改進的AI代理,由NVIDIA RTX PC和DGX Spark驅動

Hermes Agent 是一個開源的AI代理框架,由Nous Research開發,具有自我改進和可靠性的特點,已在GitHub上獲得超過14萬顆星。該框架與模型無關,最佳化用於本地執行,特別適合NVIDIA RTX PC和DGX Spark硬體。同時,阿里巴巴的Qwen 3.6模型(27B和35B引數)在效能上超越前代大型模型,是執行Hermes的理想選擇。

  • Hermes Agent 在不到三個月內獲得14萬GitHub星,成為OpenRouter上使用最多的代理
  • 具備自我進化技能、獨立子代理、可靠性設計和一致更優結果四大特點
站內正文

HEBATRON:一款面向希伯來語的開源權重混合專家語言模型

研究者推出了Hebatron,一款基於NVIDIA Nemotron-3稀疏MoE架構的希伯來語專用開源權重大語言模型。該模型在每輪前向傳播中僅啟用30億引數,卻能達到73.8%的希伯來語推理準確率,超越了之前的模型,並與Gemma-3-27B等更大規模的模型相抗衡,同時提供約9倍的推理吞吐量和高達65,536個token的上下文長度。

  • 首個支援原生長上下文的希伯來語開源權重MoE模型。
  • 採用三階段由易到難的課程學習策略,配合反遺忘錨定和200萬雙語樣本的微調。
站內正文

NVIDIA與SAP為專業AI代理帶來信任保障

NVIDIA與SAP擴充套件合作,將NVIDIA OpenShell安全執行時嵌入SAP商業AI平臺,為企業部署自主AI代理提供安全與治理控制。

  • SAP將NVIDIA OpenShell整合到SAP Business AI平臺,為AI代理提供隔離執行環境和策略執行。
  • NVIDIA與SAP聯合開發OpenShell,針對企業生產環境進行執行時加固、身份整合和審計。
站內正文

MinIO 為 Nvidia GPU 推理推出 PB 級 MemKV 快取

MinIO 釋出了 PB 級 MemKV 快取系統,專為 Nvidia GPU 推理設計,基於 AIStor 物件儲存。該系統相容 Nvidia STX 架構,透過端到端 RDMA 傳輸實現微秒級延遲,將 GPU 利用率從 50% 提升至 90% 以上,每年可節省 200 萬美元計算成本。

  • MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 級共享上下文快取,透過 BlueField-4 DPU 實現。
  • 該系統改善首個令牌生成時間,在 128 個 GPU 部署中顯著提升效能。
站內正文

NVIDIA與SAP為專業AI代理帶來信任

在SAP Sapphire大會上,NVIDIA與SAP宣佈擴大合作,將NVIDIA OpenShell整合到SAP Business AI平臺中,為企業執行專業AI代理提供安全與治理控制。

  • SAP將NVIDIA OpenShell嵌入SAP Business AI平臺,作為所有AI代理的執行時安全層。
  • OpenShell提供隔離執行環境和策略執行,防止代理邏輯失敗時造成損害。
站內正文

NVIDIA工程師和研究人員如何使用Codex

團隊利用Codex與GPT-5.5將研究創意轉化為可執行的實驗,並交付生產系統。

  • NVIDIA團隊使用Codex配合GPT-5.5進行開發
  • 將研究想法快速轉化為可執行實驗
站內正文

NVIDIA CEO黃仁勳對畢業生說:“你們的職業生涯始於AI革命的開端”

NVIDIA創始人兼CEO黃仁勳在卡內基梅隆大學第128屆畢業典禮上發表演講,鼓勵畢業生抓住AI革命的開端機遇。他將其與PC革命相提並論,強調AI將重塑每個行業,並呼籲負責任地推進AI發展,確保其惠及所有人。

  • 黃仁勳鼓勵畢業生在AI革命的開端抓住機遇。
  • 他將當前時刻與PC革命的開端相比,稱AI將改變每個行業。
站內正文

輝達CEO黃仁勳告訴畢業生:你們的職業生涯始於AI革命的開端

輝達創始人兼CEO黃仁勳在卡內基梅隆大學2026屆畢業典禮上發表演講,鼓勵畢業生們抓住AI革命帶來的歷史性機遇,強調AI將改變每個行業,並呼籲負責任地推進AI發展。

  • 黃仁勳將當前AI革命與個人電腦革命相提並論,認為這是畢業生開啟職業生涯的最佳時機。
  • AI正在推動史上最大的技術基礎設施建設,為美國再工業化提供機遇。
站內正文

Unix工作站的迴歸(現在加入AI)

一位資深Unix使用者回顧了從1990年代RISC工作站到現代基於ARM的AI工作站的演變,重點介紹了從執行Asahi Linux的Mac Studio遷移到將20核ARM CPU與強大GPU相結合的Dell Pro Max GB10(NVIDIA DGX Spark)的經歷,使得本地AI代理部署和資料科學任務成為可能。

  • 作者追溯了Unix工作站從1990年代RISC機器到現代基於ARM系統的歷史。
  • 蘋果轉向ARM(M1)復興了強大RISC Unix工作站的概念,現在透過Asahi執行Linux。
站內正文

追求AI獨立的探索之旅

本文作者探討了GitHub Copilot轉向按用量計費後的AI獨立之路。透過分析AI經濟學的陷阱,作者決定投資本地推理硬體以減少對大型AI供應商的依賴。文章詳細介紹了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬體方案,並解釋了推理過程中的記憶體頻寬瓶頸。

  • GitHub Copilot轉向按用量計費,揭示了AI公司透過低價建立依賴的策略。
  • 作者認為AI泡沫更像陷阱,建議透過本地推理減少依賴。
站內正文

透過CPU最大化令牌化減少TTFT

Crusoe與NVIDIA Dynamo合作開發了fastokens,一個開源的Rust BPE分詞器,平均速度比HuggingFace分詞器快9.1倍,在長上下文工作負載中TTFT最多降低40%。

  • fastokens實現了9.1倍的平均速度提升,長提示場景下最高可達31倍。
  • 針對CPU進行了極致最佳化,包括並行預分詞、兩級快取和動態記憶體管理。
站內正文

更稀疏、更快、更輕的Transformer語言模型

Sakana AI與輝達合作,引入了新的稀疏資料結構與GPU核心,利用非結構化稀疏性提升大語言模型(LLM)的推理與訓練效率。該工作將在ICML 2026上展示。透過L1正則化,ReLU啟用的LLM可實現超過95%的稀疏性,且下游效能幾乎無損。基於自研的TwELL格式與融合多重矩陣乘法的CUDA核心,在H100 GPU上實現了批處理推理與訓練超過20%的加速,同時降低了能耗與記憶體需求。

  • Sakana AI與輝達合作,提出TwELL(Tile-wise ELLPACK)稀疏打包格式,適配分塊矩陣乘法核心。
  • 開發了融合多重矩陣乘法的定製CUDA核心,最大化吞吐量並壓縮儲存開銷。
站內正文

公司導航