NVIDIA

来源分布

Hacker News AI16
MarkTechPost9
NVIDIA Blog8
SiliconANGLE AI3
Artificial Intelligence News2
AWS Machine Learning Blog2
Hugging Face Blog2
LangChain Blog2

主题分布

芯片50
Agent35
模型16
研究6
创业融资5
政策2
机器人1

日期线

2026-07-088
2026-07-017
2026-07-096
2026-07-106
2026-07-055
2026-07-075
2026-07-024
2026-07-033

最新动态

科技巨头为AI数据中心竞赛加杠杆，债务激增3500亿美元

2026-07-12 12:49 UTC+8

过去五年，Alphabet、亚马逊、Meta、微软和甲骨文这五大美国科技公司为扩建AI数据中心，债务总额增加了约3500亿美元。尽管投资者对AI前景看好，但亚马逊本周250亿美元的债券发行遇冷，显示市场对巨额投资的担忧。甲骨文因AI支出增加被标普下调评级，而英特尔因债务和战略失误陷入困境。大型云服务商今年计划投入高达7250亿美元，主要投向数据中心和英伟达芯片。

五大科技公司债务五年翻倍，总额增加3500亿美元
亚马逊250亿美元债券发行遇冷，反映市场对AI投资回报的疑虑

NVIDIA 基于 Tile 的 GPU 编程编码指南：从 cuTile 和 Triton 内核到 Flash Attention

2026-07-12 08:01 UTC+8

本教程通过 TileGym 探索 NVIDIA 的基于 tile 的 GPU 编程，构建一个可在不同硬件上运行的 Colab 工作流程。我们探测 CUDA 环境，尝试真实的 cuTile 后端，并在标准 Colab GPU 缺乏 cuTile 堆栈时回退到 Triton。我们学习核心 tile 思想：对整个数据块进行操作，而不是单个线程，然后加载、计算和存储它们。我们实现了向量加法、融合 GELU、行级 softmax、分块矩阵乘法和 flash attention，并将每个结果与 PyTorch 进行比较。

介绍 NVIDIA 的 tile 编程模型，将操作应用于数据块而非单个线程。
提供可运行的 Colab 脚本，支持 cuTile 和 Triton 后端。

本周AI：芯片、监管与职业变革

2026-07-11 00:04 UTC+8

本周AI新闻梳理：IBM推出0.7纳米芯片技术，OpenAI与博通发布专为推理设计的Jalapeño芯片，英伟达展示全液冷AI工厂设计；政府监管加强，Anthropic恢复模型访问权限，OpenAI提议向美国政府转让5%股权；工作角色快速演变，前哨工程师、SAP外部招聘与宜家内部培训成为焦点。

IBM发布0.7纳米芯片，性能提升50%，功耗降低70%。
OpenAI推出专为LLM推理设计的Jalapeño芯片。

使用 Amazon SageMaker AI 无服务器模型定制微调 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介绍了 NVIDIA Nemotron 3 模型的独特架构，包括混合 Mamba-Transformer MoE 设计和支持高达 1M token 的上下文长度。亚马逊 SageMaker AI 现在推出针对 Nemotron 3 的无服务器模型定制服务，支持监督微调（SFT）、基于可验证奖励的强化学习（RLVR）和基于 AI 反馈的强化学习（RLAIF）三种技术。文章详细说明了如何通过 SageMaker Studio 控制台或 Python SDK 准备数据、启动定制任务、监控训练进度和评估模型，帮助企业将通用模型转化为领域专用资产。

NVIDIA Nemotron 3 采用 Mamba-Transformer 混合 MoE 架构，仅激活部分参数即可高效运行，支持超长上下文。
Amazon SageMaker AI 为 Nemotron 3 提供无服务器模型定制，用户无需管理基础设施即可进行微调。

如何在削减团队规模的同时压缩Token预算

2026-07-10 17:34 UTC+8

英伟达CEO黄仁勋提出了一个评估工程师价值的测试：如果一位年薪50万美元的工程师每年使用的AI Token价值不到其薪水一半，他会感到“深切担忧”。他透露英伟达正朝着每年20亿美元的Token账单迈进。这一观点揭示了企业在AI投入与人力成本之间的权衡。尽管许多公司通过裁员来资助AI支出，但Gartner调查显示，约80%的企业在裁员后并未获得相应的回报。文章还探讨了通过缓存、模型路由、RAG等方式优化Token开销的方法，并强调保留人才的重要性。

黄仁勋认为工程师的AI Token消费应至少占其薪水的50%。
多家企业通过裁员为AI投资腾出预算，但效果不佳。

AI能否回答3万亿美元的问题？

2026-07-10 14:22 UTC+8

红杉资本合伙人David Cahn三年前首次计算了硅谷AI基础设施巨额支出的财务影响，他根据Nvidia的GPU收入推导出需要2000亿美元的收入才能收回前期投资。

David Cahn三年前开始计算AI基础设施投资的回报要求
他基于Nvidia年收入500亿美元的数据推算出2000亿美元收入门槛

揭开Nemotron Labs 3 Puzzle 75B A9B的面纱：压缩混合MoE大语言模型实现2.03倍服务器吞吐量

2026-07-10 03:31 UTC+8

NVIDIA发布了Nemotron-Labs-3-Puzzle-75B-A9B，这是Nemotron-3-Super的压缩变体，通过迭代式Puzzle压缩技术，将总参数量从120.7B降至75.3B，活跃参数从12.8B降至9.3B。在单个8xB200节点上，吞吐量提升至原模型的2.03倍（100 tok/s每用户）；在单块H100上，1M token并发数从1提升至8。该模型在多项基准测试中保持高精度，但指令跟随和智能体评估略有下降。

NVIDIA发布压缩版MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，参数量减少约38%，活跃参数减少27%。
在8xB200节点上实现2.03倍吞吐量提升，在单H100上实现8倍并发请求处理能力。

快速令牌生成成为关键差异点，异构推理逐渐普及

2026-07-10 03:14 UTC+8

随着代理型AI用例增多，实时交互需求推动推理基础设施重构。d-Matrix与NVIDIA合作推出异构计算解决方案，通过堆叠DRAM和逻辑芯片提升内存带宽，实现低延迟快速令牌生成，开启新的营收层级。

快速令牌生成是AI推理的关键差异点，其价格可达标准令牌的10倍。
d-Matrix的Corsair加速器与NVIDIA GPU结合，构成商业级异构推理方案。

DDN瞄准GPU效率：AI数据基础设施成为成败关键层

2026-07-10 02:56 UTC+8

DDN首席执行官Alex Bouzari在RAISE峰会上表示，AI数据基础设施决定了GPU投资能否获得回报。全球正在分化成高效利用GPU和闲置GPU的两类组织。DDN参与了12个主权AI项目，其技术使Salesforce的GPU生产力提升了70%，并得到NVIDIA长期使用验证。DDN的Infinidat平台旨在连接分布式边缘到核心的AI架构，解决多数据中心和多云的整合难题。

DDN CEO指出，AI数据基础设施是区分GPU投资成败的关键，高效利用GPU的组织获得财务回报，而其他组织则浪费资本。
数据主权推动各国建设自主AI工厂，DDN正在参与12个主权AI项目。

DeepSeek计划自主研发AI芯片

2026-07-09 22:42 UTC+8

总部位于杭州的人工智能初创公司DeepSeek正在设计自己的芯片，旨在减少对美国芯片巨头英伟达和华为的依赖。该芯片专注于推理而非训练，以降低服务成本并适应美国出口管制。凭借其在模型与硬件协同设计方面的优势，DeepSeek有望在定价战中进一步压低价格，但面临先进制造和内存受限的挑战。

DeepSeek自研推理芯片，减少对英伟达和华为的依赖。
芯片设计聚焦于推理阶段，以优化成本并应对出口管制。

NVIDIA发布Nemotron-Labs-3-Puzzle-75B-A9B：一种压缩混合MoE大模型，在相同用户吞吐量下实现2.03倍服务器吞吐量

2026-07-09 16:47 UTC+8

NVIDIA发布了Nemotron-Labs-3-Puzzle-75B-A9B，这是Nemotron-3-Super的压缩变体。通过迭代式Puzzle压缩，模型参数从120.7B总/12.8B活跃降至75.3B总/9.3B活跃。在单个8xB200节点上，用户吞吐量达到100 tok/s时，总吞吐量提升至Super的2.03倍；在单个H100上，1M令牌并发数从1提升至8。

参数压缩：总参数从120.7B降至75.3B，活跃参数从12.8B降至9.3B。
吞吐量提升：8xB200节点上，在匹配用户吞吐量下总吞吐量提升1.60x至2.14x。

1.3亿美元A轮融资，构建开放超级智能堆栈

2026-07-09 15:48 UTC+8

Prime Intellect 宣布完成1.3亿美元A轮融资，由Radical Ventures领投，NVIDIA、英特尔、戴尔等参投，总融资额超1.5亿美元。公司旨在构建开放超级智能堆栈，利用强化学习（RL）使企业能够拥有自己的模型优化循环，而非依赖少数封闭实验室。其平台涵盖训练、部署和持续改进模型的完整工具链，已拥有超6000家客户，年化收入超1亿美元。未来将聚焦长时程代理、递归语言模型、自动化科研和持续学习等前沿方向。

Prime Intellect 获1.3亿美元A轮融资，领投方为Radical Ventures，总融资超1.5亿美元。
公司构建开放超级智能堆栈，使企业可通过强化学习拥有自己的模型优化闭环。

OpenClaw基金会正式成立

2026-07-09 14:10 UTC+8

OpenClaw从一个周末项目成长为全球性开源运动，每周新增450万用户，成为GitHub史上增长最快的仓库。如今，它正式成立501(c)(3)非营利基金会，旨在保持项目开放、独立，并由社区驱动。基金会将提供治理、稳定资金，并雇佣全职团队。合作伙伴包括OpenAI、NVIDIA、微软、密歇根大学等，共同推动个人AI代理的发展。

OpenClaw从个人项目成长为全球性开源运动，每周新增450万用户。
成立501(c)(3)非营利基金会，确保项目长期开放、独立。

英伟达与Hugging Face合作开发开源机器人模型

2026-07-09 03:35 UTC+8

英伟达与Hugging Face合作，旨在通过开源机器人模型提升物理AI的可访问性和部署，进一步巩固英伟达在该领域的强势地位。

英伟达与Hugging Face宣布合作，共同开发开源机器人模型。
此举旨在促进物理AI的可访问性和部署。

智能体的数据

2026-07-09 01:16 UTC+8

NVIDIA 通过开放数据和合成数据推动智能体 AI 发展，强调数据质量、可检查性和信任。

NVIDIA 发布了 Nemotron 系列开放数据集，包括预训练和后训练样本。
合成数据有助于在保护公司机密的同时共享有用信号。

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

2026-07-08 23:04 UTC+8

LangChain与NVIDIA合作推出NemoClaw深度代理蓝图，结合LangChain深度代理代码、NVIDIA Nemotron 3 Ultra和OpenShell，为企业构建开放、受治理的代理系统。该蓝图在代理评估中实现了领先性能，且推理成本降低约10倍。

NemoClaw深度代理蓝图整合了LangChain的代理框架、NVIDIA的开放模型Nemotron 3 Ultra以及安全运行时OpenShell。
该蓝图在LangChain代理评估套件中达到0.86的综合得分，成本仅为4.48美元，相比竞争对手的43.48美元，推理成本降低约10倍。

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 与 LangChain 深度代理框架结合，在开放模型中取得最高准确率，同时以比顶级封闭模型低 10 倍的推理成本完成更多任务。该成果无需重新训练模型，而是通过优化模型周围环境实现。Abridge、Amdocs、Box 等企业正在将专业代理嵌入其平台，EY 等系统集成商则基于此开放栈为客户构建定制化代理。

LangChain 为 NVIDIA Nemotron 3 Ultra 调优的深度代理框架在开放模型中取得最高准确率，任务量更大且成本仅为封闭模型的 1/10。
所有性能提升均来自工程优化而非模型重新训练，调整包括系统提示、工具描述和中间件。

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

2026-07-08 23:00 UTC+8

Deep Agents Code现在可作为NVIDIA NemoClaw的治理蓝图运行，使用开放模型Nemotron 3 Ultra，提供默认拒绝网络、人工审批和完整审计日志，适用于敏感代码现代化。

Deep Agents Code (dcode) 作为NemoClaw蓝图，运行开放模型Nemotron 3 Ultra，确保代码、模型和审计轨迹自主可控。
默认拒绝网络、人工审批和完整审计轨迹为监管团队提供所需控制。

ZML发布免费产品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法国AI初创公司ZML在被誉为图灵奖得主Yann LeCun的支持下，推出了一款免费软件，旨在使多种开源大型语言模型能够在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在内的多种芯片上高效运行。

ZML获得Yann LeCun背书，发布免费推理加速软件
支持多种AI芯片，打破Nvidia垄断格局

NVIDIA的Cosmos-Framework教程：用全模态混合Transformer设计Colab友好的Cosmos 3世界模型微型版

2026-07-08 15:15 UTC+8

本教程从Colab实际操作角度探索NVIDIA的Cosmos框架，诚实地评估真实Cosmos 3检查点所需的硬件条件。我们检测运行时环境，基于框架的真实结构、CLI界面和输入模式，构建并训练了一个紧凑的全模态混合Transformer模型，该模型共享跨模态注意力，同时将每种模态路由到各自的专家网络。使用合成物理世界数据和自回归滚动，展示了模型如何跨文本、视觉和动作模态预测未来潜在状态。

教程从硬件探测开始，说明为何标准Colab无法运行完整的Cosmos 3 16B+模型
基于NVIDIA cosmos-framework的真实结构，构建了一个约400万参数的微型全模态混合Transformer

忘掉GPU短缺：真正的AI瓶颈早在2007年就被诊断出来了

2026-07-08 11:13 UTC+8

本文指出，AI的真正瓶颈并非GPU算力，而是内存带宽。这一观点可追溯到2007年Ulrich Drepper的论文《每个程序员都应该了解的内存知识》。近期AMD、高通和英伟达的动向均反映了这一现实。解决方案如FlashAttention和小型语言模型通过优化数据局部性来缓解问题。

AI瓶颈是内存带宽，而非GPU算力，这一诊断源于2007年的论文。
GPU算力增长远超内存带宽，导致数据移动成为主要限制。

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

2026-07-08 10:20 UTC+8

本期AINews涵盖了2026年7月6日至7日的广泛AI发展。亮点包括Lilian Weng对递归自我改进中套件工程深入分析、Meta推出Muse Image和预览Muse Video（具有代理生成循环）、以及Anthropic、LangChain和Google在代理平台上的重大产品更新。其他值得注意的内容：NVIDIA的Audex音频模型、Cohere的阿拉伯语ASR、与Hugging Face和NVIDIA的机器人集成、Liquid AI的Antidoom方法减少推理循环失败、以及Anthropic有争议的J-space可解释性研究。还涵盖了代理和法律AI的基准测试、研究自动化和推理效率进展。

Lilian Weng的博文将递归自我改进重新聚焦于套件工程而非直接权重修改，强调套件工程对于指定目标和上下文至关重要。
Meta的Muse Image和Muse Video展示了具有规划、工具使用和自我细化的代理生成，迅速登上公共排行榜高位。

NVIDIA发布Audex（Nemotron-Labs-Audex-30B-A3B）：统一音频-文本LLM，保留骨干网络的文本智能

2026-07-08 08:50 UTC+8

NVIDIA发布了Audex，一个统一的音频-文本大语言模型，采用MoE架构（30B总参数，3B激活），基于Nemotron-Cascade-2骨干网络。该模型能处理音频理解、语音识别、翻译、TTS和音频生成，且在多阶段SFT和文本RL训练后，文本性能几乎无退化。在语音识别上领先开源模型（OpenASR WER 6.82），并能生成通用音频。模型以非商业许可发布。

Audex是一个统一的音频-文本模型，支持多种音频任务，文本性能保留骨干网络水平。
采用MoE架构，总参数30B，每token激活3B参数，设计简洁，兼容标准LLM框架。

AI创新者采用NVIDIA Vera——为何大规模最大单线程CPU至关重要

2026-07-07 23:00 UTC+8

NVIDIA Vera是一种专为AI代理时代设计的新型CPU，强调大规模下的最大单线程性能。它基于自研Olympus核心，相比前代Grace性能提升50%，并配备高带宽内存与低功耗设计。在代理工作负载中，Vera相比x86 CPU提供1.8倍的持续单核性能，并在真实测试中展现出1.5至1.9倍的速度提升。Vera整合了从工具调用到数据处理的全部工作，使AI工厂能最大化GPU利用率。

NVIDIA Vera是一款专为代理AI设计的大规模最大单线程CPU。
其Olympus核心相比Grace性能提升50%，并支持高达1.2TB/s内存带宽。

英伟达GPU债务担保释放AI项目三位一体：资本、承购

2026-07-07 15:55 UTC+8

英伟达推出GPU租赁担保计划，旨在解决AI计算融资瓶颈，促进市场多元化。该计划通过提供最低收入保障，帮助中小云服务商获得融资，从而扩大计算资源可及性，并推动GPU融资市场发展。文章分析了AI资本支出和债务融资的快速增长前景，以及英伟达此举的战略意义。

英伟达启动GPU租赁担保计划，为云服务商提供收入保障，降低融资门槛。
AI项目需要资本、承购和数据中心三要素，英伟达的担保有助于解决融资难题。

NVIDIA与Hugging Face为开放机器人社区带来新模型和框架至LeRobot

2026-07-07 14:00 UTC+8

NVIDIA和Hugging Face合作，将NVIDIA Isaac GR00T 1.7模型和Isaac Teleop框架集成到Hugging Face的开源机器人库LeRobot中，并计划引入NVIDIA Cosmos 3。这些整合为开发者提供了更易访问和标准化的机器人开发路径，推动开放机器人社区的创新。

NVIDIA和Hugging Face合作，将Isaac GR00T 1.7模型和Isaac Teleop框架引入LeRobot。
LeRobot获得NVIDIA物理AI能力，包括数据收集、模型训练和仿真工具。

主权AI诊断登上黄金时段

2026-07-07 02:34 UTC+8

Palantir首席执行官Alex Karp在CNBC上猛烈抨击AI行业，称其“疯狂”，并指责OpenAI和Anthropic对美国企业征收“财富税”。然而，他实际上强调了主权AI的重要性，即企业应拥有自己的计算、模型和数据。Palantir与Nvidia合作推出了主权AI OS参考架构，允许客户在安全、隔离的环境中部署Nvidia的Nemotron模型，这使股价上涨了9%。

Alex Karp在CNBC上批评AI行业，称其“疯狂”，并指责AI公司对美国企业征收“财富税”。
Karp强调企业应控制自己的计算、模型和数据，即主权AI理念。

开放模型如何推动AI研究

2026-07-07 00:00 UTC+8

在2026年国际机器学习大会（ICML）上，超过2000篇论文引用了NVIDIA GPU，Nemotron、Cosmos和BioNeMo等开放模型成为机器人、生命科学和合成数据生成等AI研究的基础。NVIDIA有74篇论文被收录，突出了视觉、强化学习和智能体训练等趋势。

开放前沿模型和基础设施现已成为AI研究的基础。
NVIDIA的Nemotron系列被用作推理、数据整理和安全推断的研究堆栈。

各国如何部署AI以服务于战略优先事项

2026-07-06 23:00 UTC+8

各国正在投资国内AI基础设施，包括AI工厂、基于本地数据训练的基础模型以及人才培养，以定制化AI满足本地需求，这一趋势由生成式和代理式AI驱动。来自欧洲、亚洲和拉丁美洲的案例展示了社会效益。

AI正在重塑经济和社会，促使各国构建本土AI能力。
AI工厂——下一代数据中心——正成为AI生产的关键基础设施。

AI数据中心

2026-07-06 21:42 UTC+8

Epoch AI的独立数据库覆盖全球67个大型AI数据中心，通过卫星图像、许可证等公开数据追踪其建设时间线。最大的设施是SpaceXAI在孟菲斯的Colossus 2，IT功率达946 MW，计算能力相当于111.2万块H100 GPU。美国集中了大部分数据中心，尤其在得克萨斯、俄亥俄等州。总IT功率容量达10.8 GW，加上冷却等基础设施后总设施功率达14 GW，超过纽约市峰值需求。硬件以NVIDIA H100、H200、B200 GPU为主，Google和Amazon也使用自研芯片。

Epoch AI数据库收录67个AI数据中心，最大的是SpaceXAI的Colossus 2。
美国拥有最多大型AI数据中心，集中在得克萨斯、俄亥俄等州。

美团在没有英伟达GPU的情况下训练了1.6万亿参数AI模型

2026-07-05 12:59 UTC+8

美团发布了LongCat-2.0，一个1.6万亿参数的混合专家模型，完全基于国产AI ASIC超级计算机集群训练和部署，没有使用英伟达GPU。该模型在OpenRouter上以Owl Alpha的匿名名称出现，获得高使用量。虽然并非性能最强的模型，但此举证明了国产计算生态的成熟度，为中国AI产业摆脱对英伟达依赖提供了可行路径。

LongCat-2.0拥有1.6万亿总参数，激活参数约480亿，采用混合专家架构。
训练和部署完全基于国产AI ASIC超级计算机集群，据称约5万张昇腾910C芯片。

中国LongCat-2.0成为最大的不使用英伟达芯片的AI模型

2026-07-05 12:58 UTC+8

美团发布了LongCat-2.0，一个1.6万亿参数的开源大语言模型，完全使用国产硬件进行训练和推理，标志着中国在AI芯片自主化方面的重要突破。

LongCat-2.0拥有1.6万亿参数和100万token上下文窗口，完全基于国产硬件。
与DeepSeek不同，LongCat-2.0在训练和推理阶段均使用国产芯片，展示了技术实力。

Nvidia悄无声息地成为AI热潮背后的银行

2026-07-05 07:59 UTC+8

Nvidia正在资助购买了其GPU的neocloud公司，通过回租闲置容量和收入分成，逐步从硬件公司转变为类似银行的角色。

Nvidia通过融资模式支持neocloud公司购买其GPU
Nvidia回租闲置容量并分享云收入

Anthropic 推出 Claude Science 测试版：一个用于可重复基因组学、蛋白质组学和化学信息学管道的多智能体 AI 工作台

2026-07-05 00:21 UTC+8

Anthropic 于 2026 年 6 月 30 日发布了 Claude Science 测试版。该应用基于现有 Claude 模型，采用多智能体架构：一个协调智能体将任务分配给领域专家智能体，一个审查智能体标记并纠正引文和数字，每个图表附带其确切代码、环境和完整消息历史。它管理本地机器、通过 SSH 的 HPC 以及 Modal 上的计算，并连接 60 多个数据库和 NVIDIA BioNeMo 技能。

Claude Science 是一个面向科学家的 AI 工作台，可运行多步骤研究并记录每个结果的生成过程。
采用多智能体架构：协调智能体、领域专家智能体和审查智能体协同工作。

NVIDIA HORIZON：一种免手动代理框架，利用Git工作树实现RTL基准测试100%完成率

2026-07-05 00:04 UTC+8

NVIDIA Research推出HORIZON，一种免手动代理框架，将硬件设计视为基于Git工作树的仓库级代码演化。该框架在所有评估的RTL基准测试中达到100%通过率，但团队指出代理式硬件设计尚未完全解决。

HORIZON将设计问题托管为版本控制的Git仓库，迭代演化代码。
使用结构化Markdown框架，包含目标、方向、评估器和验收谓词。

NVIDIA AI推出ASPIRE：一种自我改进的机器人框架，在LIBERO-Pro长任务上达到31%零样本率

2026-07-04 14:32 UTC+8

NVIDIA与多所大学团队提出ASPIRE框架，通过编写和调试机器人程序，将验证过的修复转化为可复用的技能库。在LIBERO-Pro上提升高达77分，并零样本迁移到未见过的长时域任务。

ASPIRE通过每个原语的轨迹定位故障，而非依赖粗粒度的任务级反馈
技能库存储可复用的修复策略，实现跨任务的知识积累

NVCF：大规模部署和路由 GPU 加速 AI 工作负载

2026-07-03 16:18 UTC+8

NVIDIA Cloud Functions (NVCF) 是一个用于大规模部署、管理和运行 GPU 加速工作负载的开源平台。它支持长期运行的函数和异步任务，利用 Kubernetes 进行编排，并提供统一控制平面、负载均衡路由、多集群自动缩放等功能。本文介绍了 NVCF 的架构、工作负载类型、核心能力以及如何使用 Bazel 构建。

NVCF 是 NVIDIA 开源的 GPU 工作负载平台，支持推理、流处理和批处理。
架构包括控制平面、调用平面和计算平面，通过 Kubernetes 管理。

DGX工作站与“前沿”模型：深度调查本地AI的真相

2026-07-03 11:48 UTC+8

本文深入调查NVIDIA DGX工作站的实际能力，揭露其748GB统一内存中仅252GB为高速HBM3e，其余为低速LPDDR5X。通过Cornell、Snowflake等使用案例和GLM-5.2等基准测试，探讨其能否承载本地前沿模型推理。

DGX工作站拥有748GB统一内存，但仅252GB为高速HBM3e（7.1TB/s），496GB为低速LPDDR5X（396GB/s），NVLink-C2C实测未达标称900GB/s。
售价约10万美元，与多GPU RTX PRO 6000、云推理及Mac Studio等方案竞争，买家需评估是否值得。

Show HN: AI基础设施知识库

2026-07-03 01:11 UTC+8

一个面向系统管理员、GPU服务器工程师、平台工程师、SRE和MLOps工程师的实用、可引用的知识库，涵盖从物理数据中心和InfiniBand网络到Kubernetes、Slurm、Ray、分布式训练、强化学习后训练和大规模LLM推理服务的GPU集群部署、运维和优化。涵盖NVIDIA全系列产品（Ampere、Hopper、Blackwell数据中心GPU，RTX消费级和工作站卡，DGX系统包括DGX Spark），当前以Blackwell Ultra（B300/GB300 NVL72）为重点更新至2026年中。

为运营GPU集群的工程师提供可引用的实践指南。
涵盖硬件、构建、集群技术、训练、推理和服务运维全栈。

NVIDIA BioNeMo 加速 Anthropic Claude 科学研究

2026-07-02 22:38 UTC+8

Anthropic 推出了 Claude Science 公开测试版，集成了 NVIDIA BioNeMo Agent Toolkit，使科学家能够使用自然语言直接与数字代理对话，执行端到端的研究工作流程，加速计算生命科学研究。

Claude Science 与 NVIDIA BioNeMo Agent Toolkit 集成，支持自然语言驱动的科研工作流。
NVIDIA 提供 GPU 加速模型、库和微服务，大幅提升计算效率。

[AINews] 今天没发生太多事

2026-07-02 15:10 UTC+8

本期涵盖Anthropic的Fable 5重新上线并配备安全兜底，生态系统转向多模型编排。开源模型如GLM-5.2通过ZCode和基准测试取得进展。智能体基础设施引入维基记忆和结构化组合模式，Devin Security Swarm展示基于智能体的漏洞发现。架构进展包括NVIDIA TwoTower和端侧推理突破。

Anthropic重新上线Fable 5，附带安全兜底措施，工具生态迅速集成，用户转向多模型编排。
Z.ai推出GLM-5.2的ZCode IDE，基准测试显示开源模型编码差距缩小，推理优化加速。

NVIDIA 大规模解锁 AI 算力，邀请资本合作伙伴助力 AI 基础设施建设

2026-07-02 11:34 UTC+8

随着 AI 从模型开发转向生产推理，计算需求加速并转向持续运行的 AI 工厂。NVIDIA 推出新战略，通过收入分成和信用支持模式，让初创企业、模型构建者等获得大规模加速计算资源。Sharon AI 和 Firmus 等公司已率先部署。

AI 计算需求从开发转向推理，需要大规模多租户加速计算
NVIDIA 通过收入分成模式开放计算访问，降低资本门槛

在 AWS GovCloud（美国）上通过 Amazon Bedrock 运行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

2026-07-02 02:14 UTC+8

AWS GovCloud（美国）区域新增对 OpenAI 开源 GPT OSS 模型（120B 和 20B）及 NVIDIA Nemotron 系列模型（Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B）的支持，通过 Amazon Bedrock 提供统一的 API 访问，推理过程完全在美国境内由美国公民运营的基础设施上进行，满足 FedRAMP、DoD SRG 等合规要求。

Amazon Bedrock 现支持 OpenAI GPT OSS（120B/20B）和 NVIDIA Nemotron（多个尺寸）模型。
所有推理均在 AWS GovCloud（美国）隔离边界内进行，数据不离开美国。

NVIDIA 与合作伙伴在美国为美国建设

2026-07-01 21:00 UTC+8

NVIDIA 及其合作伙伴正在投资美国制造业、供应链、电网和熟练劳动力，以便美国能够生产更好的医疗、突破性科学发现、更强的工业生产力以及全球技术领导地位所需的基础设施。

NVIDIA 与合作伙伴在43个州建设AI基础设施，计划在美国生产高达5000亿美元的AI基础设施。
2026年，NVIDIA驱动的AI需求将为美国GDP贡献4850亿美元，并支持超过10万个就业岗位。

NVIDIA发布Nemotron-Labs-TwoTower：基于冻结自回归骨干网络的开放权重扩散语言模型

2026-07-01 16:10 UTC+8

NVIDIA发布了Nemotron-Labs-TwoTower扩散语言模型，该模型采用双塔架构，在冻结的自回归骨干网络上添加训练过的去噪器，实现了2.42倍的生成吞吐量提升，同时保留了98.7%的基准质量。模型以开放权重形式发布，支持扩散、模拟自回归和自回归三种推理模式。

TwoTower将扩散过程拆分为冻结的AR上下文塔和训练过的去噪器塔。
在默认配置下，吞吐量提升2.42倍，质量保留98.7%。

在Jetson上通过持久流服务本地AI

2026-07-01 09:00 UTC+8

作者使用NVIDIA Jetson Orin Nano Super和Kokoro-82M模型构建了一个本地文本转语音应用StreamTTS，利用持久流（S2）而非传统请求-响应架构，实现了可共享、可重放的实时音频生成，并解决了慢推理、多用户公平调度和去重等问题。

使用Jetson Orin Nano Super和Kokoro-82M模型自托管TTS服务。
采用S2持久流架构，支持输出流的实时追加和重放。

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

2026-07-01 08:00 UTC+8

Hugging Face 与 Cerebras 合作，利用 Gemma 4 模型打造实时语音 AI 系统，通过开放模块化架构显著降低延迟，实现更自然的对话体验。该系统集成 Nvidia 的语音识别、Cerebras 的推理加速和 Alibaba 的语音合成，已在 9000 多台 Reachy Mini 机器人中应用。

Hugging Face 和 Cerebras 推出基于 Gemma 4 的实时语音 AI 演示，延迟极低。
系统采用开放的级联架构：语音输入→语音识别→模型推理→语音合成→语音输出。

宣布8亿美元C轮融资：加速向开源AI的转变

2026-07-01 08:00 UTC+8

Together AI完成8亿美元C轮融资，由Aramco Ventures、NVIDIA、Vista Equity等领投，旨在加速开源AI的普及。公司强调，闭源模型的成本无法规模化，而开源模型结合全栈优化可实现6-20倍成本降低。Together AI已推出FlashAttention-4、Together Megakernel等创新，成为全球最大的AI token生产商之一。

Together AI完成8亿美元C轮融资，用于加速开源AI发展
公司认为闭源模型的成本在规模化应用中不可持续

英伟达BioNeMo Agent Toolkit助力生命科学研究人员，与Claude Science集成加速AI应用

2026-07-01 01:00 UTC+8

英伟达发布了BioNeMo Agent Toolkit，与Anthropic的Claude Science集成，使科学家能通过自然语言与AI代理交互，加速药物发现、基因组学等生命科学研究。该工具包整合了英伟达的加速模型、库和微服务，包括Parabricks、RAPIDS-singlecell和nvMolKit，显著提升计算速度。全球前20大药企中有18家使用英伟达BioNeMo。Claude Science现已进入公开测试。

英伟达BioNeMo Agent Toolkit与Anthropic的Claude Science集成，提供加速的AI工作流
工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具，可大幅缩短计算时间

Anthropic推出Claude Science：专为科研打造的AI工作台

2026-07-01 01:00 UTC+8

Anthropic于周二推出Claude Science，这是一款面向科学家的新应用，可在macOS和Linux上本地运行或远程使用。该工具旨在整合科研人员常用的数据库和工具，如PubMed、Jupyter、R和终端，提供一站式研究环境。目前处于测试阶段，主要面向生命科学领域，但未来计划扩展。Claude Science基于标准Claude模型，通过协调代理访问超过60个数据库，并利用Nvidia BioNeMo工具包连接生命科学模型。它还能生成可视化内容（如3D蛋白质结构），并与高性能计算集群或Modal账户集成，处理大规模计算任务。

Anthropic推出Claude Science，一个集多种工具于一体的AI科研工作台，目前处于测试阶段。
主要面向生命科学研究者，但可通过Claude付费计划（Pro、Max、Team、Enterprise）使用。

来源分布

主题分布

日期线

最新动态

科技巨头为AI数据中心竞赛加杠杆，债务激增3500亿美元

NVIDIA 基于 Tile 的 GPU 编程编码指南：从 cuTile 和 Triton 内核到 Flash Attention

本周AI：芯片、监管与职业变革

使用 Amazon SageMaker AI 无服务器模型定制微调 NVIDIA Nemotron 3 模型

如何在削减团队规模的同时压缩Token预算

AI能否回答3万亿美元的问题？

揭开Nemotron Labs 3 Puzzle 75B A9B的面纱：压缩混合MoE大语言模型实现2.03倍服务器吞吐量

快速令牌生成成为关键差异点，异构推理逐渐普及

DDN瞄准GPU效率：AI数据基础设施成为成败关键层

DeepSeek计划自主研发AI芯片

NVIDIA发布Nemotron-Labs-3-Puzzle-75B-A9B：一种压缩混合MoE大模型，在相同用户吞吐量下实现2.03倍服务器吞吐量

1.3亿美元A轮融资，构建开放超级智能堆栈

OpenClaw基金会正式成立

英伟达与Hugging Face合作开发开源机器人模型

智能体的数据

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

ZML发布免费产品，加速跨AI芯片推理

NVIDIA的Cosmos-Framework教程：用全模态混合Transformer设计Colab友好的Cosmos 3世界模型微型版

忘掉GPU短缺：真正的AI瓶颈早在2007年就被诊断出来了

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

NVIDIA发布Audex（Nemotron-Labs-Audex-30B-A3B）：统一音频-文本LLM，保留骨干网络的文本智能

AI创新者采用NVIDIA Vera——为何大规模最大单线程CPU至关重要

英伟达GPU债务担保释放AI项目三位一体：资本、承购

NVIDIA与Hugging Face为开放机器人社区带来新模型和框架至LeRobot

主权AI诊断登上黄金时段

开放模型如何推动AI研究

各国如何部署AI以服务于战略优先事项

AI数据中心

美团在没有英伟达GPU的情况下训练了1.6万亿参数AI模型

中国LongCat-2.0成为最大的不使用英伟达芯片的AI模型

Nvidia悄无声息地成为AI热潮背后的银行

Anthropic 推出 Claude Science 测试版：一个用于可重复基因组学、蛋白质组学和化学信息学管道的多智能体 AI 工作台

NVIDIA HORIZON：一种免手动代理框架，利用Git工作树实现RTL基准测试100%完成率

NVIDIA AI推出ASPIRE：一种自我改进的机器人框架，在LIBERO-Pro长任务上达到31%零样本率

NVCF：大规模部署和路由 GPU 加速 AI 工作负载

DGX工作站与“前沿”模型：深度调查本地AI的真相

Show HN: AI基础设施知识库

NVIDIA BioNeMo 加速 Anthropic Claude 科学研究

[AINews] 今天没发生太多事

NVIDIA 大规模解锁 AI 算力，邀请资本合作伙伴助力 AI 基础设施建设

在 AWS GovCloud（美国）上通过 Amazon Bedrock 运行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

NVIDIA 与合作伙伴在美国为美国建设

NVIDIA发布Nemotron-Labs-TwoTower：基于冻结自回归骨干网络的开放权重扩散语言模型

在Jetson上通过持久流服务本地AI

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

宣布8亿美元C轮融资：加速向开源AI的转变

英伟达BioNeMo Agent Toolkit助力生命科学研究人员，与Claude Science集成加速AI应用

Anthropic推出Claude Science：专为科研打造的AI工作台

公司导航

OpenAI

Anthropic

DeepSeek

Google

Meta

Microsoft

NVIDIA

Mistral

Hugging Face

LangChain