AI News HubLIVE

GPU 基礎設施動態

NVIDIA Blackwell 在首個代理式 AI 基礎設施基準測試中領先

Artificial Analysis 釋出業界首個代理式 AI 基準測試 AgentPerf,首輪結果顯示 NVIDIA Blackwell Ultra NVL72 平臺在代理式 AI 工作負載中效能領先,每兆瓦可執行 20 倍於 Hopper 的代理。基準測試基於真實編碼代理軌跡,測量平臺在滿足響應速度輸出速率閾值下能同時支援的代理任務數。

  • AgentPerf 是首個針對代理式 AI 的基準測試,衡量系統處理鏈式 LLM 呼叫和工具呼叫的能力。
  • NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 模型上每兆瓦執行的代理數是 H200 的 20 倍。
站內正文

G-MAPP:GPU加速的多智慧體規劃與感知實現反應式運動生成

本文提出G-MAPP框架,利用GPU加速世界建模和基於向量場的規劃,實現高達5倍的加速,並緊密耦合感知-行動迴圈,用於非結構化環境中的即時反應式運動生成。在7自由度Franka Emika機器人上的實驗驗證了其有效性。

  • GPU加速使規劃速度比CPU版本提升5倍
  • 更緊密的感知-行動迴圈耦合,實現即時反應式運動
站內正文

基於立體視覺的人體姿態估計跌倒預測與檢測:AMD Kria K26 SOM上的實現

本文提出一種基於AMD Kria K26 SOM的低功耗、行動式跌倒預測與檢測系統,利用Intel RealSense D455相機捕獲RGB和深度影像,透過量化YOLOX、Anchor-to-Joint(A2J)和CNN三級流水線實現隱私保護的即時跌倒檢測。系統在邊緣裝置上執行,無需雲端依賴,適用於老年人監護。實驗表明,多執行緒流水線幀率達4.5 FPS,YOLOX、A2J和CNN精度分別為74%、84.13%和75.85%。

  • 利用AMD Kria K26邊緣裝置實現隱私保護的跌倒檢測系統
  • 三級流水線:量化YOLOX檢測人體、A2J估計關節、CNN分類跌倒
站內正文

Neura Robotics 融資 14 億美元用於物理 AI

來自 Nvidia、亞馬遜和高通等投資者的資金將支援該供應商開發人形機器人和物理 AI。

  • Neura Robotics 獲得 14 億美元融資
  • 投資者包括 Nvidia、亞馬遜和高通
站內正文

大幅優惠,暢玩無限:GeForce NOW夏季促銷帶來超值會員折扣

NVIDIA GeForce NOW夏季促銷現已開啟,12個月Ultimate會員直降70美元,Performance會員優惠35美元。雲遊戲服務消除了硬體障礙,提供即時訪問高效能RTX遊戲的體驗,並支援多裝置暢玩。此外,宣佈《激戰3》即將登陸平臺,現有《激戰2》和《激戰:重製版》的獨家獎勵。

  • GeForce NOW夏季促銷:Ultimate會員年費省70美元,Performance會員省35美元,限時優惠。
  • 雲遊戲消除硬體限制,提供即時遊戲、自動更新和跨裝置支援。
站內正文

遇見「North Mini Code」:Cohere 的 30B 開放權重混合專家模型,3B 活躍引數,專為智慧體程式設計打造

Cohere 釋出了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總引數、3B 活躍引數的混合專家模型,可在單張 H100 GPU 上執行,支援 256K 上下文長度。模型專注於程式碼生成、智慧體軟體工程和終端任務,權重採用 Apache 2.0 許可釋出。

  • North Mini Code 是 Cohere 首個編碼模型,30B 總引數,3B 活躍引數,支援 256K 上下文和 64K 最大輸出。
  • 模型可在單張 H100(FP8)上執行,權重開源(Apache 2.0),透過 Hugging Face、Cohere API 等渠道可用。
站內正文

PyTorch 效能分析(第2部分):從 nn.Linear 到融合 MLP

本文是 PyTorch 效能分析系列的第二部分,深入探討了 nn.Linear 層的內部機制,包括轉置操作、融合偏置的 epilogue 技術,以及 torch.compile 對單個線性層的影響。隨後,文章剖析了一個包含 GeGLU 啟用的多層感知機(MLP)的效能特徵,展示了 GPU 核心的排程和執行過程。

  • nn.Linear 透過 epilogue 將偏置加法融合到矩陣乘法核心中,避免額外的記憶體訪問。
  • torch.compile 對單個 nn.Linear 層無明顯加速,但能消除 CPU 排程開銷。
站內正文

DiffusionGemma:谷歌開源高速文本生成模型

谷歌釋出了名為DiffusionGemma的新開源模型,基於Apache 2許可證,可在NVIDIA的NIM雲API上免費使用。該模型在生成速度上表現卓越,達到每秒500個token以上。

  • 谷歌釋出開源模型DiffusionGemma,採用Apache 2許可證。
  • 該模型在NVIDIA NIM雲API上免費託管。
站內正文

對於自動駕駛計程車,安全必須內建而非外加

隨著自動駕駛計程車服務在全球擴充套件,NVIDIA推出Halos作業系統——一個整合了認證作業系統、標準化介面、AI護欄和驗證框架的全面安全系統,確保安全從底層構建於自動駕駛車輛之中。

  • 全球多個自動駕駛計程車專案使用NVIDIA DRIVE Hyperion平臺啟動,包括慕尼黑的Uber/Autobrains、臺灣的富士康、東南亞的VinFast以及沙烏地阿拉伯的HUMAIN。
  • NVIDIA Halos OS解決四個關鍵安全挑戰:安全可認證的作業系統、安全的介面、帶可驗證護欄的AI,以及大規模驗證。
站內正文

谷歌AI釋出DiffusionGemma:26B MoE開放模型,採用文本擴散技術實現最高4倍生成速度

DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型引數量26B(MoE架構,推理時僅啟用3.8B),基於Gemma 4骨幹,支援多模態輸入(文本、影像、影片),上下文視窗256K,覆蓋140+語言,採用Apache 2.0許可。

  • DiffusionGemma是26B引數的混合專家(MoE)模型,推理時僅啟用3.8B引數,透過並行文本擴散生成整塊文本。
  • 在單個NVIDIA H100上達到1000+ tokens/s,RTX 5090上700+ tokens/s,量化後僅需18GB VRAM。
站內正文

NVIDIA加速谷歌DeepMind的DiffusionGemma,實現本地AI

谷歌DeepMind釋出了DiffusionGemma實驗性開源模型,透過並行生成文本而非逐詞預測,大幅提升速度。NVIDIA對其進行了最佳化,使其在GeForce RTX、RTX PRO和DGX Spark等平臺上執行更快,本地即可實現高達1000 tokens/sec的推理速度。

  • DiffusionGemma採用擴散模型方式,每步並行生成多達256個token,而非傳統自迴歸式逐個生成。
  • 基於Gemma 4架構(26B引數,MoE),啟用僅3.8B引數,效能提升達4倍。
站內正文

定時技巧可將LLM訓練能耗降低14%

荷蘭特溫特大學的研究人員透過在每個GPU核心級別調整時脈頻率,在幾乎不犧牲速度的情況下,將大語言模型訓練能耗降低了14%。

  • 研究人員在GPU每個核心級別應用動態電壓頻率調整(DVFS)。
  • 實現了14%的能耗節省,訓練時間僅增加0.6%。
站內正文

Easybilling:面向AI產品的原生計費與支付平臺

Easybilling 是一款為 AI SaaS、API、智慧體和 GPU 平臺設計的 AI 原生計費和變現平臺。它支援訂閱、按用量計費和積分驅動的定價模式,提供即時 API/令牌用量追蹤、預付費錢包管理、自動化開票和全球支付功能,幫助 AI 公司擺脫自建計費基礎設施的負擔。

  • 面向 AI 產品的原生計費和變現平臺,專為使用量計費模式設計。
  • 支援訂閱、按用量和積分等多種混合定價模式。
站內正文

NVIDIA機密計算助力擴充套件蘋果私有云計算

NVIDIA宣佈,其配備機密計算的GPU現已用於蘋果私有云計算(PCC)的機密推理,該服務已從蘋果自有資料中心擴充套件至Google Cloud。該技術透過硬體級安全層保護資料在處理過程中的隱私,確保包括系統構建者在內的任何人都無法檢視使用者資料、聊天或對話。

  • NVIDIA機密計算GPU已用於蘋果私有云計算的機密推理
  • 蘋果將其私有云計算擴充套件至Google Cloud
站內正文

使用 Amazon SageMaker AI 上的 NVIDIA Isaac Lab 擴充套件機器人強化學習

本文展示瞭如何使用 Amazon SageMaker AI 上的 NVIDIA Isaac Lab 為 Unitree H1 人形機器人訓練策略,涵蓋兩種計算選項:SageMaker HyperPod(彈性持久叢集)和 SageMaker Training Jobs(臨時按需訓練)。解決方案提供統一的 Docker 映象、MLflow 實驗跟蹤以及詳細的操作指南。

  • 使用 NVIDIA Isaac Lab 和 SageMaker AI 擴充套件人形機器人的強化學習訓練。
  • 兩種計算選項:HyperPod(持久叢集,自動恢復故障)和 Training Jobs(按需臨時作業)。
站內正文

蘋果智慧借助谷歌和輝達再出發

在WWDC 2026上,蘋果展示了重建版Siri,該助手基於與谷歌共同開發的基礎模型,並在複雜查詢時使用輝達GPU。

  • 蘋果在WWDC 2026上推出了重建版Siri。
  • 新Siri基於與谷歌合作開發的基礎模型。
站內正文

去中心化AI推理市場

T4T是一個去中心化的AI推理市場,允許GPU提供商競標提示任務,客戶使用xBZZ支付,結算在Gnosis鏈上,路由透過Swarm,無需中間商或API金鑰。

  • T4T實現按token計費的AI推理,無中央運營商。
  • 提供商質押xBZZ並競爭推理任務。
站內正文

NVIDIA cuTile Python教程:在Colab中構建用於向量加法、矩陣加法和矩陣乘法的分塊GPU核心

本教程詳細介紹瞭如何使用NVIDIA cuTile Python在Colab中構建分塊GPU核心,涵蓋環境設定、向量加法、矩陣加法和矩陣乘法,並提供了PyTorch回退方案以確保在cuTile不可用時仍可執行。透過實際示例和基準測試,幫助讀者理解分塊程式設計的核心概念。

  • 在Colab中設定NVIDIA cuTile Python環境,檢查GPU、驅動和CUDA版本。
  • 實現分塊向量加法、矩陣加法和矩陣乘法的cuTile核心。
站內正文

蘋果在WWDC 2026重建其裝置端AI堆疊

蘋果在WWDC 2026上未釋出新晶片,而是徹底重建了裝置端AI執行方式,包括新的推理框架Core AI、模型格式.aimodel、新一代裝置端模型AFM 3,以及更明確的雲協作策略。Core AI取代Core ML進行神經網路處理,新GPU整合了神經加速器,矩陣乘法速度提升4-8倍。蘋果的旗艦雲模型執行在谷歌雲的NVIDIA GPU上,這一合作引人注目。

  • Core AI替代Core ML成為神經網路推理的新框架,並引入新的.aimodel模型包格式。
  • M5和A19 GPU在著色器核心內整合神經加速器,使矩陣乘法速度提升4-8倍。
站內正文

MuJoCo-Drones-Gym:用於控制與強化學習的GPU加速多無人機模擬器

MuJoCo-Drones-Gym是一個基於MuJoCo物理引擎的開源多無人機模擬環境,支援任意數量的Crazyflie 2.x奈米無人機,提供模組化API選擇物理模型、動作介面和觀測空間,並整合PettingZoo並行環境以支援多智慧體強化學習,包含七種任務場景。

  • 基於MuJoCo引擎,支援GPU加速,實現高保真物理模擬和多無人機並行渲染。
  • 模組化API允許靈活切換物理模型(剛體、顯式動力學、地面效應、槳葉阻力、下洗流等)和動作介面(電機轉速、推力、速度、PID航點)。
站內正文

將你的 GitHub CI 遷移到 Hugging Face Jobs

本文詳細介紹瞭如何將 GitHub Actions CI 遷移到 Hugging Face Jobs,以解決 GitHub 託管的 runner 速度慢、無 GPU 等問題。透過建立排程器 Space、GitHub App 以及修改 runs-on 標籤,即可讓 CI 作業在 Hugging Face 基礎設施上執行,支援 CPU 和 GPU 硬體,並即時流式傳輸日誌。Trackio 的實踐表明,CPU 任務時間可縮短約 30%。

  • GitHub Actions 預設執行在通用機器上,速度慢且不支援 GPU。
  • 使用 Hugging Face Jobs 作為 CI runner,可靈活選擇硬體(如 CPU、T4、H200)。
站內正文

HPE ProLiant Compute DL394 Gen12 將 NVIDIA Vera CPU 引入代理式 AI

HPE 在 COMPUTEX 2026 上釋出了 ProLiant Compute DL394 Gen12,一款基於 NVIDIA Vera CPU 的 2U 伺服器,專為代理式 AI 和資料密集型工作負載設計。該平臺整合了 HPE 的企業管理和安全堆疊,並與 NVIDIA 和 Redpanda 合作,紐約證券交易所正在探索用於其代理式 AI 基礎設施。伺服器採用單晶片架構,配備 LPDDR5X 記憶體,頻寬高達 1.2TB/s,並支援量子抵抗加密。預計 2026 年秋季上市。

  • HPE 釋出 DL394 Gen12,基於 NVIDIA Vera CPU,面向代理式 AI。
  • 與 NVIDIA 和 Redpanda 合作,NYSE 為早期使用者。
站內正文

小米MiMo與TileRT實現萬億引數模型每秒超1000 token生成,執行於商用GPU

小米MiMo團隊聯合TileRT推出MiMo-V2.5-Pro-UltraSpeed,在單臺8×商用GPU節點上,實現萬億引數模型每秒超1000 token的解碼速度。該技術結合FP4量化、DFlash投機解碼和TileRT執行時三大創新,無需定製晶片即可達此效能。API試用期為2026年6月9日至23日,定價為標準模型的3倍。

  • 萬億引數MoE模型在商用GPU上達到1000+ token/秒
  • 三大技術:FP4量化、DFlash投機解碼、TileRT執行時
站內正文

英國如何藉助NVIDIA技術將主權AI願景轉化為行動

一年前,NVIDIA創始人黃仁勳與英國首相斯塔默宣佈英國將成為AI製造者。如今,NVIDIA及其合作伙伴展示該國在基礎設施、初創企業和企業領域的AI進展,包括主權AI部署、Isambard-AI超級計算機及多項創新應用。

  • 英國AI雲提供商數量翻倍,Nebius、CoreWeave等計劃部署基礎設施。
  • Isambard-AI超級計算機基於NVIDIA GH200晶片,驅動尖端AI研究。
站內正文

“AI是別人的GPU”

這句新格言是對經典程式設計師嘲諷“雲是別人的計算機”的現代演繹,反映了AI時代技術依賴的新現實。

  • “AI是別人的GPU”是“雲是別人的計算機”的AI時代變體。
  • 該說法衍生出關於創業、生活、工作、影像生成和產品整合等多種情境。
站內正文

加速傅立葉SAT(AFSAT):完全實現基於GPU的對稱偽布林SAT求解器

本文介紹加速傅立葉SAT(AFSAT),一種基於連續區域性搜尋(CLS)的GPU加速偽布林可滿足性求解器。AFSAT將概念驗證方法FastFourierSAT發展為完全工程化的求解器,支援任意異構對稱約束型別和長度的混合。利用JAX編譯器,透過純函式組合、自動向量化、自動微分和即時編譯實現大規模並行CLS。與概念驗證相比,AFSAT在數值穩定性、執行時效能和記憶體效率上顯著提升,透過解決記憶體延遲和浮點表示限制,以及利用自動並行化和緊湊表示實現。定製的離散傅立葉變換部分解決了浮點限制,透過JAX陣列分片實現多加速器近線性擴充套件。

  • AFSAT是一種基於連續區域性搜尋的GPU加速偽布林SAT求解器,將FastFourierSAT發展為完整工程實現。
  • 利用JAX編譯器實現純函式組合、自動向量化、自動微分和JIT編譯,支援大規模並行批處理。
站內正文

輝達與LG集團共建AI工廠,推動物理AI、移動出行及AI基礎設施發展

輝達與LG集團宣佈合作建設AI工廠,為LG提供加速計算基礎設施,以支援其在機器人、自動駕駛、資料中心和GPU雲服務等領域的AI業務。雙方將整合輝達的全棧AI工廠平臺與LG在消費電子、機器人、移動出行元件等領域的全球領先地位,打造統一的物理AI系統開發工作流程。

  • 輝達與LG集團合作建設AI工廠,涵蓋機器人、自動駕駛、資料中心和GPU雲服務。
  • LG電子將利用輝達Isaac Sim和Isaac Lab框架開發家用機器人,並探索使用GR00T模型。
站內正文

開源社群支援OpenEnv用於智慧體強化學習

OpenEnv是一個用於建立智慧體執行環境(如終端、瀏覽器等)的開源工具。今天,我們宣佈OpenEnv將變得更加開放,由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該專案旨在為開放原始碼的智慧體訓練提供通用基礎設施,並專注於作為互操作性層,而不是定義獎勵或訓練迴圈。

  • OpenEnv是一個用於建立智慧體執行環境的開源工具
  • 現在由Meta-PyTorch、Reflection、Unsloth等主要AI組織組成的委員會治理
站內正文

輝達與斗山集團合作推進物理AI和AI工廠基礎設施

輝達與斗山集團擴充套件合作,涵蓋機器人、建築裝置、能源和材料等領域,共同推進物理AI和AI工廠基礎設施的發展。

  • 斗山機器人將整合輝達的物理AI技術,開發智慧機器人作業系統。
  • 斗山Bobcat探索將輝達物理AI用於自主施工裝置。
站內正文

AI公司的“命運共同體”讓人想起網際網路泡沫

AI基礎設施市場出現巨頭相互投資、購買服務並創造收入的模式,類似網際網路泡沫時期。SpaceX的IPO前與Google和Anthropic簽訂大額AI計算租賃合約,引發市場對收入真實性的質疑。投資視角需從GPU銷售轉向電力、冷卻等瓶頸。

  • SpaceX與Google和Anthropic簽訂合計年收入約260億美元的AI計算租賃協議。
  • 市場擔憂這些交易是內部迴圈以抬高估值,而非真實外部需求。
站內正文

Show HN:每隻爪子都值得擁有一張臉

Nyxclaw 是一個開源專案,能讓 AI 代理擁有即時面部和語音功能,完全在本地執行,無需 GPU。它提供自託管伺服器、端到端加密、兩種語音管道(OpenAI Realtime 和本地 CPU 堆疊),並支援 ARKit 面部混合形狀。

  • Nyxclaw 是開源專案,為 AI 代理提供即時面部和語音,本地執行無需 GPU。
  • 自託管伺服器,透過加密配對確保資料隱私,無雲端依賴。
站內正文

我在Computex上親眼見到了Surface Laptop Ultra:微軟已進入野獸模式

微軟在Computex 2026上釋出的旗艦筆記型電腦Surface Laptop Ultra搭載了Nvidia全新的RTX Spark晶片,擁有高達128GB的統一記憶體。本文是ZDNet編輯在臺北的現場上手體驗,詳細介紹了其頂級配置、散熱設計、可維修性以及尚存的疑問。

  • Surface Laptop Ultra是首款搭載Nvidia RTX Spark處理器的旗艦筆記本,配備20核CPU和相當於RTX 5070的GPU。
  • 現場演示中,該筆記本流暢執行了多款圖形密集型遊戲和影片編輯任務。
站內正文

NVIDIA、KRAFTON、NC及衛冕《英雄聯盟》冠軍T1在韓國PC房慶祝RTX Spark釋出

NVIDIA在臺北COMPUTEX的GTC上釋出RTX Spark超級晶片後,CEO黃仁勳前往韓國,向遊戲社群介紹該晶片。韓國頂級遊戲開發商KRAFTON和NC已著手將遊戲移植到RTX Spark平臺。黃仁勳在T1基地營與T1戰隊會面,並展示了RTX Spark。此外,他還在江南區的PC房與KRAFTON和NC合作展示了遊戲演示。

  • NVIDIA釋出RTX Spark超級晶片,專為本地AI、創作和遊戲設計,支援1440p解析度下超過100幀每秒的AAA遊戲。
  • 黃仁勳與T1戰隊會面,包括六屆世界冠軍Faker,宣佈RTX Spark合作。
站內正文

NVIDIA garak教程:使用自定義探測器和檢測器構建完整的防禦性LLM紅隊工作流

本教程全面介紹NVIDIA garak框架,用於防禦性LLM紅隊測試。涵蓋安裝、外掛發現、幹執行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器建立,以及AVID格式匯出。透過端到端示例,展示如何評估和增強LLM安全性。

  • NVIDIA garak是一個用於防禦性LLM紅隊測試的開源框架。
  • 教程演示了從安裝到自定義擴充套件的完整工作流程。
站內正文

Google 推出 Colab CLI,讓開發者和 AI 代理在終端中遠端使用 Colab GPU 和 TPU 執行 Python

Google 釋出了 Colab CLI,這是一個命令列工具,允許開發者和 AI 代理在本地終端中連線遠端 Colab 執行時,在雲 GPU 和 TPU 上執行程式碼。該工具開源(Apache 2.0 許可),支援建立會話、執行程式碼、管理檔案,並可與 Claude Code、Codex 和 Antigravity 等代理配合使用。

  • Colab CLI 是一個命令列介面,透過一條命令即可配置 T4、L4、A100、H100 GPU 或 TPU。
  • colab exec 可直接在遠端執行時執行本地 .py 或 .ipynb 檔案,無需手動上傳。
站內正文

五個實驗室,五個思維:用小型模型構建多模型金融戲劇

本文介紹了《千令牌之林》v2版本,這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家,透過借貸、提供內幕訊息(真假皆有)、做空和賄賂來影響市場,而每個智慧體(動物角色)使用來自不同實驗室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B)。文章詳細討論了異構模型整合的技術挑戰(如vLLM服務層、CUDA工具鏈)、資訊不對稱的防火牆設計、記憶管理(採用有界摘要而非完整歷史)以及實驗結果(真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性)。最終結論是:小型模型是可靠的格式生成器但推理不可靠,異構模型群體更有趣且配置成本低,秘密資訊必須透過資料流防火牆保護,持久記憶需有界以保持模型專注。

  • 每個智慧體使用不同實驗室的小型模型,異構性使市場行為更真實
  • 資訊不對稱透過防火牆設計實現,測試證明內幕訊息的隱藏標誌從未洩露
站內正文

AI背後的硬體

本文深入探討了AI硬體的基礎,從電晶體、半導體到GPU架構,解釋了晶片製造、製程微縮歷史及CUDA的重要性。

  • 電晶體是控制電流的半導體器件,是晶片的基本單元。
  • 臺積電(TSMC)主導晶片製造,ASML壟斷極紫外(EUV)光刻機。
站內正文

Nvidia的AI硬體透過RTX Spark PC進入Windows

在2026年臺北國際電腦展上,Nvidia釋出了面向Windows PC的RTX Spark,基於Blackwell GB10超級晶片,並得到微軟及多家PC廠商支援。相比2024年Qualcomm的Copilot+ PC,Nvidia憑藉其行業影響力和軟體生態有望推動Windows on Arm生態發展。RTX Spark整合CPU、GPU和NPU,效能預計接近RTX 5070移動顯示卡,但功耗更低。Nvidia的軟體優勢是關鍵,其GPU市場份額超90%,驅動成熟。微軟強調AI能力,但Windows on Arm的真正考驗仍是能否成為x86的替代品。

  • Nvidia在Computex 2026釋出RTX Spark,將Blackwell GB10超級晶片引入Windows PC。
  • 微軟及華碩、戴爾、聯想等廠商宣佈支援RTX Spark的新裝置。
站內正文

NVIDIA釋出Nemotron 3.5 ASR:600M引數快取感知流式模型,即時轉錄40種語言區域

NVIDIA釋出了Nemotron 3.5 ASR,這是一個600M引數的流式自動語音識別模型,採用快取感知的FastConformer-RNNT架構,支援40種語言區域的即時轉錄,且內建標點和大小寫功能。模型以開放權重形式釋出在Hugging Face上,許可協議為OpenMDW-1.1。

  • 單檢查點覆蓋40種語言區域,無需切換模型
  • 快取感知設計減少計算延遲,每個音訊幀僅處理一次
站內正文

[AINews] 今天沒發生太多事

今日AI新聞涵蓋多個領域:Sakana AI在東京設立RSI實驗室,推動遞迴自我改進研究;新智慧體評估基準如ALE和SWE-Marathon出現,揭示前沿模型可靠性不足;開源模型方面,谷歌釋出Gemma 4 QAT檢查點,Ideogram 4成為領先的開放權重影像模型;NVIDIA擴充套件Nemotron生態系統;Hermes Agent釋出新版桌面應用;Arena推出Agent模式;開發者工具和基礎設施經濟也成為焦點。

  • Sakana AI成立RSI實驗室,將遞迴自我改進從理論轉向正式研究計劃。
  • 新基準如ALE和SWE-Marathon測試智慧體的長期任務執行能力,結果表明可靠性仍有待提高。
站內正文

ZeroGPU:AI推理的算力高效層

ZeroGPU是一個為AI推理設計的算力高效層,旨在最佳化計算資源使用,降低推理成本,提升效率。

  • ZeroGPU專注於AI推理的算力最佳化
  • 提供高效的計算層以降低推理成本
站內正文

Google DeepMind釋出Gemma 4 QAT檢查點:Q4_0和新移動格式降低裝置端記憶體

Google DeepMind為Gemma 4系列釋出了量化感知訓練(QAT)檢查點,旨在支援邊緣裝置和消費級GPU的本地部署。本文基於官方資料比較了BF16、Q4_0 QAT和新型移動QAT三種格式,分析其記憶體佔用、質量保持和裝置適配性。

  • Q4_0 QAT將Gemma 4 E2B模型從BF16的9.6GB降至3.2GB,E4B從15GB降至5GB。
  • 新型移動QAT格式將E2B記憶體降至約1GB,純文本版本更低。
站內正文

OpenClaw 在公眾視野中變得更安全

OpenClaw 是一個開源 AI 代理專案,透過透明度和社群貢獻顯著提升了安全性。儘管面臨大量虛假漏洞報告,該專案修復了真實漏洞,強化了平臺,並與 NVIDIA、微軟、騰訊等公司合作,使其更適合生產環境。

  • 開源特性使 OpenClaw 能夠快速響應並修復安全漏洞。
  • 專案收到了超過 1300 份安全報告,但絕大多數是誤報。
站內正文

Gemma 4 QAT模型:為移動裝置和筆記型電腦最佳化壓縮效率

谷歌釋出採用量化感知訓練(QAT)的Gemma 4新檢查點,顯著降低記憶體需求,支援在邊緣裝置和消費級GPU上本地執行。自定義移動量化格式將E2B模型記憶體佔用降至1GB以下,同時保持模型質量。

  • QAT在訓練中模擬量化,相比後訓練量化(PTQ)進一步減少質量損失。
  • 針對移動裝置設計的新型量化格式,包括靜態啟用、通道量化、2位目標量化和嵌入/KV快取最佳化。
站內正文

AI投資第二階段:從GPU到電力、工業品與太空

AI投資正從GPU轉向更廣泛的基礎設施領域,包括電力、冷卻、光通訊和太空。美國就業資料強勁但集中在服務業,AI相關股票因Broadcom財報而獲利回吐,但資金並未離場,而是輪動至其他AI受益板塊。中國則聚焦AI自主可控和機器人供應鏈,推動硬體和光學通訊需求。

  • AI投資第一輪以GPU為核心,第二輪擴充套件至電力、冷卻、光通訊和太空等整個系統。
  • 美國就業增長主要由休閒、政府和醫療保健驅動,製造業和IT表現平平。
站內正文

NVIDIA AI 釋出 Dynamo Snapshot:基於 CRIU 的 Kubernetes AI 推理快速啟動系統

NVIDIA 推出 Dynamo Snapshot,利用 CRIU 和 cuda-checkpoint 技術實現 AI 推理工作負載在 Kubernetes 上的快速冷啟動,透過最佳化將大型模型啟動時間從幾分鐘降低到數秒。

  • Dynamo Snapshot 透過檢查點/恢復機制避免了模型載入和核心編譯的冷啟動延遲。
  • 最佳化包括 KV 快取取消對映、並行 memfd 恢復、Linux 原生 AIO 以及 GPU 記憶體服務(GMS)。
站內正文

AI新聞:今天沒什麼大事發生

今天的AI新聞涵蓋了NVIDIA的Nemotron 3 Ultra和3.5 ASR釋出、Anthropic關於遞迴自我改進的討論、Cloudflare收購VoidZero、以及代理工具和記憶系統的多項更新。

  • NVIDIA釋出Nemotron 3 Ultra,一個550B引數的MoE模型,專注於長期代理任務。
  • Anthropic報告稱Claude已編寫其80%以上的合併程式碼,並展示了遞迴自我改進的早期跡象。
站內正文

首爾之志:輝達與韓國如何共建AI未來

輝達創始人兼CEO黃仁勳本週訪問首爾,與韓國AI生態系統的合作伙伴和建設者會面,聚焦AI供應鏈、機器人技術和物理AI的機遇。

  • 黃仁勳訪問首爾,旨在協調AI供應鏈以應對下半年繁忙期。
  • 強調Grace Blackwell和Vera Rubin系統進展順利,韓國需加大對AI的投資。
站內正文

基於OCT和OCT血管成像的深度學習輔助AMD分期

本研究利用深度學習模型,基於OCT和OCTA資料自動對年齡相關性黃斑變性(AMD)嚴重程度進行分期。在271名參與者中,分析了三種模型:基於生物標誌物圖譜的模型、2D en face投影模型和3D體積模型。所有模型均表現良好,其中基於生物標誌物的模型綜合效能最佳,QWK達0.85,尤其在早期AMD檢測方面表現突出。

  • 研究開發了三種深度學習模型,利用OCT/OCTA資料自動評估AMD嚴重程度。
  • 基於生物標誌物圖譜的模型綜合效能最佳,QWK為0.85,早期AMD檢測F1分數達0.59。
站內正文

NVIDIA AI釋出Nemotron 3 Ultra:一個開放的550B混合專家混合Mamba-Transformer用於長時間執行的智慧體

NVIDIA釋出了Nemotron 3 Ultra,這是一個550B總引數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間執行的智慧體設計。它支援100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練資料和配方,採用OpenMDW-1.1許可。

  • Nemotron 3 Ultra採用混合Mamba-Attention架構,Mamba層實現亞二次方擴充套件,注意力層保證精確召回。
  • 模型總引數550B,每token僅啟用55B,透過LatentMoE和多令牌預測提高效率。
站內正文

更多增長標籤

GPU 基礎設施 AI News | AI News Hub