AI News HubLIVE

来源分布

  • Hacker News AI10
  • NVIDIA Blog7
  • MarkTechPost6
  • arXiv Robotics4
  • 量子位4
  • The Decoder3
  • AI Business2
  • Artificial Intelligence News2

主题分布

  • 芯片50
  • Agent26
  • 研究14
  • 模型12
  • 创业融资6
  • 政策6
  • 机器人1

日期线

  • 2026-05-279
  • 2026-05-187
  • 2026-05-195
  • 2026-05-245
  • 2026-05-264
  • 2026-05-203
  • 2026-05-213
  • 2026-05-253

最新动态

NVIDIA研究推动机器人技术从模拟走向现实世界

在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇关于模拟到现实迁移的论文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站内正文

英伟达每年将向台湾投入1500亿美元用于AI基础设施

黄仁勋宣布英伟达将每年在台湾投入1500亿美元建设AI基础设施,尽管此前承诺了5000亿美元美国投资。这凸显了台湾在全球AI芯片制造和封装生态系统中的核心地位。

  • 英伟达每年将在台湾投入1500亿美元用于AI基础设施。
  • 尽管此前宣布了5000亿美元的美国数据中心投资,但台湾仍是关键制造基地。
站内正文

英伟达押注1500亿美元在台湾,特朗普让美国成为AI中心的计划适得其反

英伟达CEO黄仁勋计划在台湾投资1500亿美元建设AI基础设施,尽管特朗普政府试图通过关税将芯片制造带回美国。台湾拒绝放弃其半导体主导地位,而美国芯片制造能力不足。

  • 英伟达宣布1500亿美元台湾投资,巩固其AI芯片地位。
  • 特朗普政府考虑对半导体征收高额关税以促进国内制造,但美国仅生产约10%所需芯片。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

AI工厂:智能时代的新基础设施

AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。

  • AI工厂将电能转化为令牌,是智能时代的“发电厂”。
  • 代理型AI使推理工作负载更深更复杂,要求实时协调。
站内正文

AI 是一场军备竞赛,美国需要 90 亿美元的英伟达超级芯片来跟上步伐

美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。

  • 美国政府秘密申请 90 亿美元为 CIA 和 NSA 购买英伟达 GB10 超级芯片。
  • GB10 芯片功耗仅 140 瓦,却提供 1 petaflop FP4 性能,可微调 700 亿参数模型。
站内正文

英伟达暗示将在台湾投入1500亿美元

英伟达CEO黄仁勋在即将在台湾设立总部的发布会上称该国为AI革命的“中心”。

  • 英伟达CEO黄仁勋称台湾为AI革命的中心
  • 英伟达将投资约1500亿美元在台湾建设新总部
站内正文

黄仁勋:CEO用AI作裁员借口是“懒惰”的表现

英伟达CEO黄仁勋批评一些公司CEO将裁员归咎于人工智能,称这种说法“毫无意义”且“懒惰”。他指出,生成式AI工具近期才变得实用,而许多裁员在两年前就已发生。黄仁勋呼吁行业传递关于AI的平衡叙事,既承认其潜力,也强调安全推进的重要性。他还透露了近期与特朗普总统同访北京的经过。

  • 黄仁勋称CEO用AI解释裁员是“懒惰”的借口,旨在显得聪明。
  • 他认为AI近期才变得有用,而裁员两年前就已开始,逻辑不通。
站内正文

基于随机解耦策略梯度的高效在线视觉强化学习方法

提出随机解耦策略梯度(SDPG)方法,一种轻量级视觉强化学习技术,可在单块NVIDIA RTX 4080 GPU上数小时内端到端训练多种视觉运动控制策略。SDPG通过轨迹rollout的随机扰动估计策略梯度,大幅减少批量渲染环境的数量以及计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面一致优于基线方法。此外,引入了涵盖灵巧操作和挑战性运动的全新真实感视觉机器人基准测试,并在物理硬件上展示了有效的模拟到现实迁移。

  • 提出SDPG方法,在单块RTX 4080 GPU上数小时内完成训练。
  • 通过随机扰动估计策略梯度,显著降低计算和内存开销。
站内正文

多机器人协作箱体运输:基于角色分散式比例控制的地表适应性方法

本文提出R2P2分散式方法,通过规则分配推、支撑、阻止角色,并采用比例速度控制,实现多机器人协作推动箱体在不同倾斜度和摩擦力的地表(平坦、上坡、下坡)上运输。该方法减少了通信与同步需求,避免单点故障。在NVIDIA IsaacSim仿真中,六机器人团队验证了其在不同地表和箱体质量下的泛化能力,成功率优于传统虚拟领导者-跟随者方法。实际实验中,四台Turtlebot成功移动了1.2千克的箱体。

  • 提出R2P2分散式方法,通过规则分配推、支撑、阻止角色,并采用比例速度控制。
  • 支持不同倾斜度(平坦、上坡、下坡)和摩擦系数的地表,适应不同箱体质量。
站内正文

NightSight:利用事件相机在黑暗环境中进行被动导航

NightSight提出了一种轻量级感知方法,结合单目事件相机、编码孔径镜头和红外点阵投影器,使小型飞行器能够在完全黑暗的环境中自主导航。系统通过编码孔径产生深度相关的模糊特征,并用卷积神经网络解码为密集深度图,仅使用合成数据训练即可零样本泛化到真实场景。在NVIDIA Jetson Orin Nano上以20Hz实时运行,2.5米范围内误差仅7.0厘米(2.80%)。

  • 结合事件相机、编码孔径和红外投影,实现黑暗中的被动深度感知
  • 仅用合成数据训练的CNN可零样本泛化到复杂真实场景
站内正文

NVIDIA Vera CPU 对竞争对手“重拳出击”

随着AI向智能体方向演进,对CPU提出了新要求:快速内核、海量内存带宽以及全核高负载下的持续性能。Phoronix今日发布的基准测试结果显示,NVIDIA Vera CPU满足这些需求。Vera采用88个定制Olympus核心,1.2TB/s内存带宽,在功率效率内提供强劲性能。测试中,Vera在单插槽系统中展现了卓越的代码编译、文件压缩、视频转码等能力,并在STREAM TRIAD测试中实现了90%峰值带宽,远超传统x86 CPU。与上一代Grace相比,Vera性能提升1.6倍,在多项测试中领先于Intel和AMD的最新处理器。NVIDIA已向主要AI公司和云提供商交付首批Vera CPU,预计下半年通过合作伙伴上市。

  • Vera CPU针对智能体AI工作负载设计,拥有88个定制的Olympus核心和1.2TB/s内存带宽。
  • Phoronix测试显示,Vera在单插槽系统中比前代Grace性能提升1.6倍,且领先于最新的x86处理器。
站内正文

电信行业的人工智能就绪性

尽管97%的电信高管正在评估或采用AI,但许多项目因“数据债务”——即分散、无治理且语义不清晰的数据——而停滞在规模化之前。NVIDIA的2025年报告指出,瓶颈并非模型质量,而是数据可用性。Databricks Unity Catalog通过统一的语义层和治理机制,实现跨系统数据联邦、细粒度访问控制和丰富的语义上下文,从而将AI从演示推向可信赖的生产系统。

  • 97%的电信高管采用AI,但项目因数据债务停滞。
  • 数据碎片化和缺乏语义上下文是主要障碍。
站内正文

使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建高性能生成式AI系统

了解如何构建一个多智能体活动审核系统,该系统利用NVIDIA NIM进行GPU加速推理、Amazon Bedrock AgentCore提供托管运行时、Strands Agents实现无服务器编排,支持并行推理、上下文持久化和可观测性。

  • 结合NVIDIA NIM、Amazon Bedrock AgentCore和Strands Agents,实现高性能多智能体AI系统。
  • 支持并行推理、上下文持久化和可追踪的执行路径。
站内正文

刚刚,国产AI自己造了AI,全球首例!

面壁智能推出全球首个完全由AI编写的大模型预训练框架ForgeTrain,性能超越英伟达Megatron 10%,并用它训练出新模型MiniCPM5-1B,该模型在1B参数规模下刷新智能密度上限。

  • 面壁智能发布ForgeTrain,全球首个AI编写的生产级预训练框架。
  • ForgeTrain在华为昇腾上比原框架加速10%,超越英伟达Megatron。
站内正文

使用NVIDIA FLARE构建并比较非独立同分布CIFAR-10上的FedAvg与FedProx联邦学习分步指南

本教程详细介绍了如何使用NVIDIA FLARE构建高级联邦学习实验,在非独立同分布CIFAR-10数据集上比较FedAvg和FedProx算法。通过狄利克雷分布模拟客户端的标签不平衡,并使用NVFlare Job API定义和启动联邦任务,Client API处理本地训练和模型交换。文章提供了完整的代码实现和实验结果可视化。

  • 使用NVIDIA FLARE构建联邦学习实验,比较FedAvg与FedProx。
  • 采用狄利克雷分布(alpha=0.3)将CIFAR-10数据划分为3个非独立同分布客户端。
站内正文

ServiceNow的人工智能应用

ServiceNow是一家美国企业软件公司,总部位于加州圣克拉拉,全球员工超过29,000人。该公司大力投资AI和自动化,收购Passage AI、与NVIDIA合作、投入10亿美元风投资金支持AI初创企业,并在加拿大投资1.1亿加元推动公共部门AI应用。文章重点介绍两个AI用例:利用生成式AI嵌入ITSM/CSM工作流,将解决记录时间减少约80%;以及通过机器学习预测客户升级,使主动参与率从11%提升至68%,误报率仅约3%。

  • ServiceNow通过收购、合作和风投巨额投资AI,其Now Assist工具将客服文档时间减少80%。
  • 利用预测性智能和事件管理,主动识别高风险客户,将主动参与率从11%提升至68%,误报率仅3%。
站内正文

PIMbot:一种用于多机器人强化学习对抗性操控的自适应攻击框架

本文介绍了PIMbot框架,该框架通过奖励通道激励操控和智能体自身策略操控两种互补手段,对多机器人强化学习环境进行对抗性操控。自适应多目标控制器在线平衡这些手段。实验在Gazebo仿真环境和NVIDIA Jetson Orin Nano真实嵌入式设备上验证了效果,PIMbot可作为多机器人协作任务漏洞的严格压力测试工具。

  • PIMbot利用奖励操控和策略操控两种杠杆,实现对多机器人强化学习结果的操纵。
  • 自适应多目标控制器在线平衡两种操控手段。
站内正文

The Sequence Radar #865:上周AI回顾:Karpathy、Google、Colossus与即将到来的IPO浪潮

上周AI领域迎来重大转折:Google发布Gemini Omni及代理优先平台;Andrej Karpathy加入Anthropic,专注于利用Claude加速预训练研究;Anthropic与xAI达成价值450亿美元的Colossus算力租赁协议;Cerebras IPO成功,市值近950亿美元;SpaceX、OpenAI和Anthropic计划在未来六个月内相继上市,总估值可能超过3万亿美元。此外,多项前沿研究发布,包括HRM-Text高效预训练范式、AI评审员效果评估、NVIDIA的联合AR-扩散模型等。

  • Google在I/O大会上推出Gemini Omni多模态模型和代理优先平台Antigravity,整合TPU 8i实现垂直集成。
  • Andrej Karpathy加入Anthropic,组建团队利用Claude加速预训练研究,标志着自我改进循环的实质性进展。
站内正文

OpenAI 和 Nvidia 正在使用 Google 的 SynthID 为 AI 内容添加水印

Google 的 SynthID 水印系统正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 采用,标志着 AI 内容检测向共享行业标准转变。

  • SynthID 直接将水印嵌入像素和音频波形,使其比元数据更难移除。
  • OpenAI、Nvidia、ElevenLabs 和 Kakao 现在将 SynthID 用于其图像、视频和语音生成工具。
站内正文

Anthropic或被允许继续向NSA提供Claude,尽管五角大楼将其标记为供应链风险

尽管被五角大楼列为供应链风险,Anthropic仍可能继续向NSA提供AI模型。情报机构缺乏英伟达最新的Grace Blackwell芯片,而Anthropic的Mythos模型据称也运行在较旧的硬件上。之前导致谈判破裂的“任何合法用途”条款并未包含在此次协议中。

  • Anthropic可能继续向NSA供应AI模型,尽管被五角大楼视为供应链风险。
  • 情报机构缺少英伟达最新的Grace Blackwell芯片。
站内正文

NVIDIA AI 发布 Gated DeltaNet-2:一种在 Delta 规则中解耦擦除和写入的线性注意力层

NVIDIA 推出的 Gated DeltaNet-2 是一种线性注意力层,通过通道级擦除门和写入门解耦了记忆更新中的擦除与写入操作。在 1.3B 参数、100B FineWeb-Edu 令牌上训练,该模型在语言建模、常识推理和长上下文检索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 长上下文检索中提升显著。

  • Gated DeltaNet-2 将标量门分解为通道级的擦除门(键轴)和写入门(值轴),分别控制旧内容的擦除和新内容的写入。
  • 该模型在 1.3B 参数下训练于 100B FineWeb-Edu 令牌,与基线模型相比,在多种基准测试中取得最佳平均表现。
站内正文

Meta的Claudeonomics排行榜

Meta推出了内部AI排行榜'Claudeonomics',通过代币消耗追踪员工AI工具使用情况,但因数据泄露而关闭。这一趋势在行业内增长,Nvidia的Jensen Huang提议将AI代币纳入薪酬。

  • Meta的内部AI排行榜'Claudeonomics'根据代币消耗对员工进行排名,并设有'代币传奇'等徽章。
  • 该排行榜因内部使用数据被公开分享而关闭。
站内正文

利用 Nemotron-Labs 扩散语言模型实现接近光速的文本生成

NVIDIA 发布 Nemotron-Labs 扩散语言模型系列,通过并行生成与迭代精炼技术,在保持高准确率的同时,相比传统自回归模型实现最高 6.4 倍的推理速度提升。模型支持自回归、扩散和自推测三种模式,8B 版本在准确率上超越 Qwen3 8B 1.2%,并已开源。

  • Nemotron-Labs 扩散模型支持三种生成模式:自回归、扩散和自推测。
  • 8B 模型在扩散模式下速度提升 2.6 倍,自推测模式下最高提升 6.4 倍。
站内正文

Mahjax:一个用于JAX中强化学习的高性能GPU加速麻将模拟器

Mahjax是一个在JAX中实现的完全向量化立直麻将环境,可利用GPU进行大规模并行化,吞吐量达到在8块NVIDIA A100 GPU上每秒200万步(无红宝牌规则)和100万步(有红宝牌规则)。该环境支持从零开始(tabula rasa)的强化学习训练,并附有高质量可视化工具,实验验证了训练智能体可以有效提升排名。

  • Mahjax是基于JAX的完全向量化立直麻将模拟器,支持GPU并行化。
  • 在8块NVIDIA A100 GPU上,每秒可处理多达200万步(无红宝牌规则)。
站内正文

NVIDIA GTC台北站COMPUTEX:AI未来最新动态实时更新

在COMPUTEX的NVIDIA GTC台北站上,全球开发者、研究人员和行业领袖齐聚一堂,探讨AI工厂、扩展基础设施、代理式AI及物理AI等领域的突破性进展。NVIDIA创始人兼CEO黄仁勋将于6月1日上午11点(台北时间)发表主题演讲。本文提供实时更新,包括NVIDIA Vera Rubin NVL72、Jetson Thor和Alpamayo在COMPUTEX 2026最佳选择奖中获奖详情。

  • NVIDIA在COMPUTEX 2026最佳选择奖中荣获多项大奖,涵盖AI工厂、机器人和自动驾驶技术。
  • Vera Rubin NVL72获得金奖和可持续技术特别奖,推理性能每瓦提升10倍,成本降低10倍。
站内正文

开源软件开始帮助机器人思考

开源运动正将AI的突破性进展引入机器人领域,降低开发门槛。从ROS框架到英伟达、Hugging Face和阿里巴巴的开源模型,机器人推理、决策和行动的能力正变得对更多人可用。但商业激励与学术初心之间的张力也带来新挑战。

  • 开源机器人软件历经数十年发展,ROS框架奠定了基础设施,如今AI模型的开源正推动机器人“大脑”的进化。
  • 英伟达、Hugging Face和阿里巴巴等公司推出开源机器人AI工具和模型,大幅降低进入门槛。
站内正文

英伟达Vera芯片:黄仁勋不希望你忽视的2000亿美元赌注

英伟达CEO黄仁勋在财报电话会议中透露,Vera芯片将开辟一个2000亿美元的新市场,预计本财年收入达200亿美元。尽管Q1营收超预期,但Vera芯片的供应紧张问题值得关注。

  • 英伟达Vera CPU芯片瞄准推理工作负载,开辟2000亿美元市场。
  • Vera芯片预计本财年收入达200亿美元,成为第二大收入贡献者。
站内正文

阿里巴巴以新AI芯片和模型谋求独立

阿里巴巴推出新AI芯片和模型,旨在减少对Nvidia芯片的依赖,实现全栈AI战略。

  • 阿里巴巴发布新AI芯片,突显其全栈AI战略
  • 公司努力摆脱对Nvidia AI芯片的依赖
站内正文

NVIDIA发布Nemotron-Labs-Diffusion:三模式语言模型,前向令牌数达Qwen3-8B的6倍

NVIDIA推出Nemotron-Labs-Diffusion模型家族,在单一架构中统一自回归解码、扩散并行解码和自推测解码。支持3B、8B和14B参数规模,包含基础、指令和视觉语言变体。自推测模式通过扩散生成候选令牌,再由自回归验证,无需辅助模型。在8B规模下,线性自推测较Qwen3-8B实现6倍前向令牌数,准确率63.61%,优于Qwen3-8B的62.75%。布署灵活,适用于不同并发场景。

  • Nemotron-Labs-Diffusion是NVIDIA研发的三模式语言模型,统一自回归、扩散和自推测解码于一体,无需修改架构。
  • 8B模型自推测模式可达5.99×令牌/前向,准确率63.61%,超过Qwen3-8B。
站内正文

GPU遥测异常:A100闲置功耗达146瓦(白皮书)

一份白皮书揭示,NVIDIA A100 GPU在报告利用率0%的情况下,功耗可达146.66瓦,暴露了GPU遥测中的关键盲点。作者提出新的能效基准(CEI)和开源优化器来检测此类“幽灵”异常。

  • 报告的GPU利用率可能为0%,但实际功耗超过146瓦,导致隐藏的能源浪费。
  • NVIDIA的MIG分析限制在多租户云环境中造成可观测性缺口。
站内正文

NVIDIA与Google Cloud赋能新一代AI构建者

在今年的Google I/O大会上,NVIDIA和Google Cloud宣布加速其联合开发者社区中超过10万名开发者的工作,提供精选学习路径、实践实验室和活动,帮助他们在Google Cloud上使用全栈NVIDIA AI平台进行构建。社区新增了JAX库学习路径、NVIDIA Dynamo codelab以及月度直播等活动。双方还在JAX、NVIDIA Dynamo on GKE等开源框架上紧密合作,并整合了Google DeepMind的Gemma和NVIDIA Nemotron模型。此外,NVIDIA首次与Google DeepMind合作应用SynthID水印技术于NVIDIA Cosmos模型,确保AI生成内容的完整性。

  • NVIDIA和Google Cloud联合开发者社区已吸引超过10万名开发者,提供AI技能提升资源。
  • 新增JAX学习路径、Dynamo codelab和月度开发直播。
站内正文

NVIDIA Vera CPU抵达顶尖AI实验室,代理式AI需求增长

2026年5月19日,NVIDIA Vera CPU正式交付给Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI等领先AI实验室。Vera是一款专为代理式AI工作负载设计的独立CPU,具备88个定制Olympus核心、1.2 TB/s内存带宽和50%的单核性能提升。该CPU旨在处理AI代理所需的并发实时任务,如工具调用、编排和长上下文检索。Oracle计划从2026年开始部署数十万个Vera CPU。

  • NVIDIA Vera CPU已交付给Anthropic、OpenAI、Oracle Cloud Infrastructure和SpaceXAI。
  • Vera配备88个定制Olympus核心,1.2 TB/s内存带宽,单核性能提升50%。
站内正文

Apple M3 Ultra上实时扩散模型推理的系统优化

本研究针对Apple M3 Ultra(60核GPU,512 GB统一内存)进行了10阶段的全面优化实验,旨在实现实时相机img2img变换。通过结合蒸馏专用模型SDXS-512的CoreML转换和3线程相机流水线,最终在512x512分辨率下达到了22.7 FPS。研究揭示了CUDA平台上的优化策略在Apple Silicon统一内存架构上并不有效,例如量化无法加速、并行推理无效以及神经引擎不适用于大规模模型,并提供了针对Apple Silicon的扩散模型推理实用指南。

  • 在Apple M3 Ultra上进行了10个阶段的系统优化实验,涉及CoreML转换、量化、Token Merging、神经引擎等多种技术。
  • 通过CoreML转换SDXS-512模型并搭配3线程相机流水线,实现了22.7 FPS的实时图像到图像变换。
站内正文

SuperInfer:面向LLM推理的SLO感知旋转调度与内存管理

SuperInfer是一种针对超级芯片(如NVIDIA GH200)上LLM推理的高性能系统,通过SLO感知的旋转调度和全双工内存管理,显著提高TTFT SLO达标率,同时保持相当的TBT和吞吐量。

  • 创新提出RotaSched,首个主动式、SLO感知的旋转调度器,根据延迟紧迫性旋转请求状态。
  • DuplexKV引擎利用NVLink-C2C实现全双工KV缓存传输,突破PCIe带宽瓶颈。
站内正文

NVIDIA CEO黄仁勋在戴尔科技世界大会上表示:“需求呈抛物线式增长,完全呈抛物线式增长”

在戴尔科技世界大会上,戴尔和NVIDIA宣布了新一代AI基础设施,包括基于NVIDIA Vera Rubin NVL72的Dell PowerEdge XE9812,可将每个token的推理成本降低10倍。戴尔CEO迈克尔·戴尔表示,全球AI基础设施支出到2030年可能达到3-4万亿美元,代币消耗量增长3400%。NVIDIA CEO黄仁勋强调需求呈抛物线式增长。企业AI已从试点转向大规模代理AI和推理部署。戴尔AI工厂与NVIDIA合作,提供从桌面到数据中心的全面AI解决方案,包括保密计算和开放模型支持。

  • 戴尔和NVIDIA推出基于Vera Rubin NVL72的新服务器,推理成本降低10倍。
  • 戴尔CEO预测AI基础设施支出将达到数万亿美元。
站内正文

Vera 到来:英伟达首款为智能体打造的 CPU 抵达顶级 AI 实验室

英伟达副总裁 Ian Buck 亲手将首款 Vera CPU 系统交付给 Anthropic、OpenAI、SpaceXAI 和甲骨文云基础设施。Vera 专为智能体 AI 工作负载设计,拥有 88 个定制内核、1.2 TB/s 内存带宽和 50% 的单核性能提升。

  • 英伟达 Vera CPU 是首款为智能体 AI 设计的定制 CPU,已交付给顶级 AI 实验室。
  • 副总裁 Ian Buck 亲自将系统送到 Anthropic、OpenAI、SpaceXAI 和甲骨文手中。
站内正文

使用LoRA/DoRA微调NVIDIA Cosmos Predict 2.5以生成机器人视频

本文介绍了如何通过参数高效微调技术LoRA和DoRA,在单个GPU上微调NVIDIA Cosmos Predict 2.5世界模型,生成用于机器人学习的合成视频轨迹。文章详细说明了数据处理、适配器初始化、训练循环、推理方法及评估指标。

  • LoRA和DoRA允许在冻结基模型的情况下,通过小型可训练适配器进行高效微调,避免灾难性遗忘并降低内存需求。
  • 训练使用92个机器人操作视频数据集,通过rectified flow损失函数和MSE损失进行优化。
站内正文

NVIDIA引入基于NVFP4的4位预训练方法,在10T Token规模下验证12B混合Mamba-Transformer模型

NVIDIA提出了一种基于NVFP4 4位微缩放格式的预训练方法,该方法在Blackwell张量核心上原生支持,并通过训练一个120亿参数的混合Mamba-Transformer模型(使用10万亿token)进行了验证。这是公开文献中时间最长的4位预训练运行。相比FP8基线(MMLU-Pro 5-shot准确率62.62%),NVFP4达到了62.58%,几乎无损。该技术仅将线性层中的GEMM操作量化为NVFP4,而嵌入层、归一化层、注意力机制等保持BF16或FP32。四种关键技术——选择性高精度层、随机哈达玛变换、2D权重块缩放和梯度随机舍入——共同确保了训练稳定性。与MXFP4相比,NVFP4在相同token预算下实现了更低的损失,且预计在GB200和GB300上分别实现2倍和3倍的算术吞吐量提升。

  • NVIDIA的NVFP4 4位微缩放格式在Blackwell张量核心上原生支持,仅将线性层GEMM量化为4位,其余部分保持高精度。
  • 在12B混合Mamba-Transformer上使用10T token训练,MMLU-Pro准确率62.58% vs FP8基线62.62%,几乎无损失。
站内正文

黄仁勋北京必吃榜我们都尝了!后海酒吧老板:他答应以后每年来一次

本文跟随黄仁勋(英伟达CEO)的北京半日Citywalk路线,打卡了尹三豆汁、鼓楼馒头、黄瓦增福财神庙、蜜雪冰城、紫光园酸奶、方砖厂炸酱面、稻香村、玩具店、后海酒吧、庆云楼和潮府林苑等地点,记录了沿途遇到的店主和粉丝的互动故事,并制作了开源攻略路线图。

  • 黄仁勋在北京进行了半日Citywalk,打卡了多个地标和美食店。
  • 他喝豆汁的反应、喝蜜雪冰城、在财神庙拜财神等细节引发网友热议。
站内正文

Yum Brands与Nvidia合作:将在500家餐厅部署新AI

百胜餐饮集团(Yum Brands)与英伟达(Nvidia)合作,利用英伟达技术加速AI开发,计划在2025年第二季度在约500家餐厅(包括必胜客、塔可钟、肯德基和哈比特汉堡)部署AI工具,涵盖语音点餐、计算机视觉运营分析和AI分析,旨在提升效率并保持竞争优势。

  • Yum Brands与Nvidia合作,成为英伟达首家餐厅合作伙伴。
  • AI部署聚焦语音点餐、计算机视觉(含实时劳动力监控)和餐厅级分析。
站内正文

一只机器狗,把英伟达的算力王座拱翻了

蔚蓝科技发布BabyAlpha A3消费级四足机器人,采用自研异构计算集群,感知和算力突破行业天花板,实现端侧运行70亿参数模型,推动具身智能进入家庭场景。

  • 6600万像素、HDR140db等感知能力超越人眼
  • 6颗芯片异构计算集群,算力效率达行业10倍
站内正文

NVIDIA推出SANA-WM:一个26亿参数的开源世界模型,可在单GPU上生成分钟级720p视频

NVIDIA的SANA-WM是一个开源世界模型,能够根据单张图像和相机轨迹生成60秒720p视频,训练仅需64块H100 GPU,推理可在单块GPU上完成。其蒸馏变体在单块RTX 5090上仅需34秒即可生成完整60秒720p视频。

  • SANA-WM从单张图像和6自由度相机轨迹生成60秒720p视频。
  • 采用混合线性注意力(门控DeltaNet)和双分支相机控制,实现高效长序列生成。
站内正文

在自主系统时代建立AI和数据主权

随着生成式AI融入日常运营与自主系统快速发展,企业重新评估将数据交给第三方模型的风险。EDB调查显示70%高管认为主权AI平台是关键。NVIDIA CEO黄仁勋呼吁各国建设自主AI基础设施。本文基于2050多名高管调查,探讨企业如何掌控模型与数据。

  • 企业担忧使用云端AI模型导致知识产权流失和竞争地位削弱
  • 70%的全球高管认为需要主权数据和AI平台以确保成功
站内正文

英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份”

英伟达披露其CEO黄仁勋的子女Madison和Spencer的最新薪酬,分别为123.2万和132万美元,较此前大幅上涨。公司强调薪资评定与黄仁勋无关,二人凭能力晋升,未涉足核心芯片业务。

  • 黄仁勋女儿Madison年薪123.2万美元,儿子Spencer年薪132万美元,均有上涨。
  • 英伟达声明两人薪资评定与黄仁勋无关,且不直接向其汇报。
站内正文

据报道,包括字节跳动在内的十家中国公司获得美国批准购买AI芯片,但它们不被允许接受

美国已批准约十家中国公司(包括阿里巴巴、腾讯和字节跳动)每家最多购买75,000块英伟达H200芯片,但尚未有一块芯片发货。商务部长卢特尼克称,北京方面阻止了这些购买以保护本国芯片产业。

  • 美国批准十家中国公司购买英伟达H200芯片,每家最多75,000块。
  • 尚未有任何芯片发货,因为中国阻止购买以保护国内芯片产业。
站内正文

借助AI设计更好的量子电路

理论物理学家汉斯·布里格尔的研究团队与英伟达合作,开发了一种AI方法,能够自动生成高效的量子电路,这是使量子计算机具有实际可用性的关键瓶颈。

  • 研究团队与英伟达合作,利用AI自动生成量子电路
  • 高效量子电路是量子计算机实用的关键
站内正文

公司导航