GPU 基础设施 AI News

过去五年，Alphabet、亚马逊、Meta、微软和甲骨文这五大美国科技公司为扩建AI数据中心，债务总额增加了约3500亿美元。尽管投资者对AI前景看好，但亚马逊本周250亿美元的债券发行遇冷，显示市场对巨额投资的担忧。甲骨文因AI支出增加被标普下调评级，而英特尔因债务和战略失误陷入困境。大型云服务商今年计划投入高达7250亿美元，主要投向数据中心和英伟达芯片。

五大科技公司债务五年翻倍，总额增加3500亿美元
亚马逊250亿美元债券发行遇冷，反映市场对AI投资回报的疑虑

NVIDIA 基于 Tile 的 GPU 编程编码指南：从 cuTile 和 Triton 内核到 Flash Attention

2026-07-12 08:01 UTC+8

本教程通过 TileGym 探索 NVIDIA 的基于 tile 的 GPU 编程，构建一个可在不同硬件上运行的 Colab 工作流程。我们探测 CUDA 环境，尝试真实的 cuTile 后端，并在标准 Colab GPU 缺乏 cuTile 堆栈时回退到 Triton。我们学习核心 tile 思想：对整个数据块进行操作，而不是单个线程，然后加载、计算和存储它们。我们实现了向量加法、融合 GELU、行级 softmax、分块矩阵乘法和 flash attention，并将每个结果与 PyTorch 进行比较。

介绍 NVIDIA 的 tile 编程模型，将操作应用于数据块而非单个线程。
提供可运行的 Colab 脚本，支持 cuTile 和 Triton 后端。

Mesh LLM：基于iroh的分布式AI计算

2026-07-12 06:38 UTC+8

Mesh LLM是一种新型分布式AI计算系统，通过iroh网络将多台机器的GPU和内存池化，提供一个OpenAI兼容的API。用户可以在本地或对等节点上运行模型，甚至将大型模型拆分到多台机器上。它解决了AI计算成本高、缺乏控制的问题，支持私有部署和公共网格，无需依赖中央服务器。

Mesh LLM将多台机器的GPU资源池化，提供统一的OpenAI兼容API
支持本地运行、路由到对等节点或拆分模型跨多台机器

LiteRT.js：谷歌高性能网页AI推理库

2026-07-11 22:32 UTC+8

谷歌发布LiteRT.js，将高性能AI推理带入浏览器，支持CPU、GPU和NPU硬件加速，性能比现有方案提升最多3倍，并集成YOLO等模型。

LiteRT.js是LiteRT的JavaScript绑定，用于在浏览器中直接运行AI模型。
通过WebAssembly实现原生性能，支持XNNPACK（CPU）、WebGPU（GPU）和WebNN（NPU）加速。

如何使用DeepAnalyze-8B构建一个适配T4的自主数据科学代理：沙盒代码执行与迭代分析

2026-07-11 03:24 UTC+8

本教程介绍如何基于DeepAnalyze-8B构建一个自主数据科学代理。我们准备稳定的Colab运行时，安装依赖，以4位模式加载模型以适配有限GPU内存。添加沙盒执行环境，使模型能生成并安全运行Python代码，观察结果并持续迭代。最后，代理处理多文件电子商务工作区，完成数据清洗、连接、分析、可视化和生成分析报告。

在Colab中安装依赖并以4位模式加载DeepAnalyze-8B模型，适配T4 GPU。
构建沙盒代码执行器，安全运行模型生成的代码并捕获输出。

使用 Amazon SageMaker AI 无服务器模型定制微调 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介绍了 NVIDIA Nemotron 3 模型的独特架构，包括混合 Mamba-Transformer MoE 设计和支持高达 1M token 的上下文长度。亚马逊 SageMaker AI 现在推出针对 Nemotron 3 的无服务器模型定制服务，支持监督微调（SFT）、基于可验证奖励的强化学习（RLVR）和基于 AI 反馈的强化学习（RLAIF）三种技术。文章详细说明了如何通过 SageMaker Studio 控制台或 Python SDK 准备数据、启动定制任务、监控训练进度和评估模型，帮助企业将通用模型转化为领域专用资产。

NVIDIA Nemotron 3 采用 Mamba-Transformer 混合 MoE 架构，仅激活部分参数即可高效运行，支持超长上下文。
Amazon SageMaker AI 为 Nemotron 3 提供无服务器模型定制，用户无需管理基础设施即可进行微调。

在SageMaker HyperPod上实现LLM推理的分离式预填充和解码

2026-07-10 23:20 UTC+8

本文介绍了如何使用vLLM在Amazon SageMaker HyperPod上通过HyperPod推理运算符实现分离式预填充和解码（DPD）。DPD通过将预填充和解码阶段分配到不同的GPU池，消除了长提示对令牌生成的干扰，从而降低了首令牌延迟和令牌间延迟，提高了推理性能。

分离式预填充和解码（DPD）将LLM推理的预填充和解码阶段分开，运行在独立的GPU池上。
DPD显著提升长上下文、高并发流式工作负载的性能。

你愿意在家里托管AI数据中心的一部分吗？

2026-07-10 21:20 UTC+8

太阳能和家庭储能公司Sunrun启动了一项试点计划，让客户在家中托管AI计算节点，并为此获得补偿。此举旨在应对大型数据中心面临的公众反对，探索分布式AI计算基础设施。

Sunrun推出分布式AI计算试点，客户可在家中托管计算节点并获得补偿。
该公司计划将计算能力出售给AI企业。

本地视频摘要管道：使用SmolVLM2-2.2B处理帧

2026-07-10 20:00 UTC+8

SmolVLM2-2.2B在能力和规模之间取得了实用平衡，可在单个消费级GPU上运行，并生成真正有用的视频摘要。本文构建了一个本地管道，提取帧、用SmolVLM2分析并输出结构化JSON摘要。

SmolVLM2-2.2B使用像素洗牌策略，每张图像仅用81个令牌，使得在消费级GPU上处理多帧成为可能。
管道支持均匀采样和关键帧采样，适用于会议、讲座、监控等多种场景。

“AI问责议程”：美国参议员提出一揽子法案以遏制技术危害

2026-07-10 17:00 UTC+8

美国参议员埃德·马基（Ed Markey）提出一系列法案，旨在监管数据中心、自动化招聘系统、工作场所监控以及保护儿童免受AI侵害。马基表示，对未监管的人工智能所带来的危险感到担忧，包括能源消耗、算法偏见、经济不平等加剧等问题。

参议员埃德·马基公布“AI问责议程”法案包，针对数据中心、自动化招聘、工作场所监控和儿童保护。
法案旨在解决AI带来的能源消耗、算法偏见和经济不平等问题。

关于AI系统技术追求的随想

2026-07-10 16:33 UTC+8

作者通过对比童年电脑与当今的B300 GPU系统，反思AI技术的快速发展。探讨了LLMs的争议、符号AI与统计AI的差异、智能的本质以及未来的梦想与现实。文章还包含与朋友的关于确定性和记忆的讨论。

从童年电脑到B300 GPU系统的技术飞跃
对LLMs和AI行业的反思：过度炒作还是真正变革？

AI能否回答3万亿美元的问题？

2026-07-10 14:22 UTC+8

红杉资本合伙人David Cahn三年前首次计算了硅谷AI基础设施巨额支出的财务影响，他根据Nvidia的GPU收入推导出需要2000亿美元的收入才能收回前期投资。

David Cahn三年前开始计算AI基础设施投资的回报要求
他基于Nvidia年收入500亿美元的数据推算出2000亿美元收入门槛

韩国芯片制造商SK海力士借AI热潮在美上市募资265亿美元

2026-07-10 13:06 UTC+8

SK海力士作为先进存储芯片供应商，受益于全球AI数据中心建设热潮，利润飙升。公司于周五确定其巨额美国上市定价，计划融资265亿美元，成为全球最大规模股票发行之一。

SK海力士于周五确定美国上市定价，目标融资265亿美元。
该公司是全球AI数据中心建设热潮的主要受益者，利润大幅增长。

TensorSharp：开源的本地LLM推理引擎

2026-07-10 10:42 UTC+8

TensorSharp是一个基于.NET 10的本地LLM推理引擎，支持GGUF模型、GPU加速，并提供命令行工具、浏览器聊天服务器及兼容Ollama和OpenAI的API。它强调隐私性、零按token费用，并支持多种硬件后端。文中还提供了快速入门指南和性能基准测试比较。

使用C#和.NET 10构建的本地LLM推理引擎，支持GGUF模型和GPU加速。
提供命令行工具、Web UI聊天服务器以及兼容Ollama和OpenAI的HTTP API。

新西兰首个AI数据中心计划引发担忧，当地居民要求更多透明度

2026-07-10 08:40 UTC+8

新加坡公司Datagrid获准在新西兰南部的Makarewa建设价值35亿新西兰元（约20亿美元）的AI数据中心，计划于2026年动工，2028年投入运营。当地居民对电力、水资源消耗及噪音污染表示担忧，呼吁项目方提高透明度。

新加坡Datagrid公司计划在新西兰南部Makarewa建设该国首个AI数据中心，耗资35亿新西兰元。
项目预计2026年开工，2028年运营，占地49公顷。

Token per watt成为存储进入AI关键路径的衡量标准

2026-07-10 06:56 UTC+8

随着代理AI推动上下文记忆需求激增，存储角色从边缘走向核心。Solidigm提出以token per watt作为数据中心效率新指标，并通过高密度SSD和液冷技术重新定义AI基础设施。

Token per watt替代原始算力，成为AI数据中心效率新度量标准。
固态存储从辅助角色跃升至关键路径，影响GPU利用率。

揭开Nemotron Labs 3 Puzzle 75B A9B的面纱：压缩混合MoE大语言模型实现2.03倍服务器吞吐量

2026-07-10 03:31 UTC+8

NVIDIA发布了Nemotron-Labs-3-Puzzle-75B-A9B，这是Nemotron-3-Super的压缩变体，通过迭代式Puzzle压缩技术，将总参数量从120.7B降至75.3B，活跃参数从12.8B降至9.3B。在单个8xB200节点上，吞吐量提升至原模型的2.03倍（100 tok/s每用户）；在单块H100上，1M token并发数从1提升至8。该模型在多项基准测试中保持高精度，但指令跟随和智能体评估略有下降。

NVIDIA发布压缩版MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，参数量减少约38%，活跃参数减少27%。
在8xB200节点上实现2.03倍吞吐量提升，在单H100上实现8倍并发请求处理能力。

快速令牌生成成为关键差异点，异构推理逐渐普及

2026-07-10 03:14 UTC+8

随着代理型AI用例增多，实时交互需求推动推理基础设施重构。d-Matrix与NVIDIA合作推出异构计算解决方案，通过堆叠DRAM和逻辑芯片提升内存带宽，实现低延迟快速令牌生成，开启新的营收层级。

快速令牌生成是AI推理的关键差异点，其价格可达标准令牌的10倍。
d-Matrix的Corsair加速器与NVIDIA GPU结合，构成商业级异构推理方案。

DDN瞄准GPU效率：AI数据基础设施成为成败关键层

2026-07-10 02:56 UTC+8

DDN首席执行官Alex Bouzari在RAISE峰会上表示，AI数据基础设施决定了GPU投资能否获得回报。全球正在分化成高效利用GPU和闲置GPU的两类组织。DDN参与了12个主权AI项目，其技术使Salesforce的GPU生产力提升了70%，并得到NVIDIA长期使用验证。DDN的Infinidat平台旨在连接分布式边缘到核心的AI架构，解决多数据中心和多云的整合难题。

DDN CEO指出，AI数据基础设施是区分GPU投资成败的关键，高效利用GPU的组织获得财务回报，而其他组织则浪费资本。
数据主权推动各国建设自主AI工厂，DDN正在参与12个主权AI项目。

正式验证AI生成的GPU内核

2026-07-10 00:50 UTC+8

AI智能体生成的高性能GPU内核虽然通过数值测试，但仍可能存在隐藏缺陷。本文介绍了Gimlet Labs开发的一款早期研究系统，利用形式化验证补充传统数值测试，确保AI生成及人工编写的内核的正确性。通过一个缺失中间裁剪的注意力机制案例，展示了形式化验证如何发现测试遗漏的等价性问题。

AI生成的GPU内核在数值测试中可能隐藏语义错误。
形式化验证通过SMT求解器证明所有输入上的等价性。

Lab：全栈平台，训练你自己的模型

2026-07-09 21:47 UTC+8

Prime Intellect 发布 Lab 平台，旨在让每个人都能训练自己的 AI 模型。该平台集成了环境中心、托管训练和评估功能，支持从强化学习到推理的完整后训练流程，无需管理GPU集群或底层算法细节。

Lab 平台将环境中心、托管训练和评估整合为一个全栈解决方案，用于模型研究和优化。
平台支持大规模异步强化学习训练，使用 LoRA 技术，并兼容多种主流模型。

NVIDIA发布Nemotron-Labs-3-Puzzle-75B-A9B：一种压缩混合MoE大模型，在相同用户吞吐量下实现2.03倍服务器吞吐量

2026-07-09 16:47 UTC+8

NVIDIA发布了Nemotron-Labs-3-Puzzle-75B-A9B，这是Nemotron-3-Super的压缩变体。通过迭代式Puzzle压缩，模型参数从120.7B总/12.8B活跃降至75.3B总/9.3B活跃。在单个8xB200节点上，用户吞吐量达到100 tok/s时，总吞吐量提升至Super的2.03倍；在单个H100上，1M令牌并发数从1提升至8。

参数压缩：总参数从120.7B降至75.3B，活跃参数从12.8B降至9.3B。
吞吐量提升：8xB200节点上，在匹配用户吞吐量下总吞吐量提升1.60x至2.14x。

1.3亿美元A轮融资，构建开放超级智能堆栈

2026-07-09 15:48 UTC+8

Prime Intellect 宣布完成1.3亿美元A轮融资，由Radical Ventures领投，NVIDIA、英特尔、戴尔等参投，总融资额超1.5亿美元。公司旨在构建开放超级智能堆栈，利用强化学习（RL）使企业能够拥有自己的模型优化循环，而非依赖少数封闭实验室。其平台涵盖训练、部署和持续改进模型的完整工具链，已拥有超6000家客户，年化收入超1亿美元。未来将聚焦长时程代理、递归语言模型、自动化科研和持续学习等前沿方向。

Prime Intellect 获1.3亿美元A轮融资，领投方为Radical Ventures，总融资超1.5亿美元。
公司构建开放超级智能堆栈，使企业可通过强化学习拥有自己的模型优化闭环。

OpenClaw基金会正式成立

2026-07-09 14:10 UTC+8

OpenClaw从一个周末项目成长为全球性开源运动，每周新增450万用户，成为GitHub史上增长最快的仓库。如今，它正式成立501(c)(3)非营利基金会，旨在保持项目开放、独立，并由社区驱动。基金会将提供治理、稳定资金，并雇佣全职团队。合作伙伴包括OpenAI、NVIDIA、微软、密歇根大学等，共同推动个人AI代理的发展。

OpenClaw从个人项目成长为全球性开源运动，每周新增450万用户。
成立501(c)(3)非营利基金会，确保项目长期开放、独立。

MiLSD：面向资源受限设备的微型线段检测器

2026-07-09 12:00 UTC+8

线段检测是视觉SLAM、3D重建和工业检测的关键模块。现有深度学习方法虽精度高，但最小模型也需数兆字节内存，超出低成本MCU的容量。本文研究亚兆字节预算下的最大可达精度，提出MiLSD——针对MCU约束设计的检测器，系统比较紧凑全卷积骨干网络中的三种输出表示，发现所提出的F-Clip中心-长度-角度公式在小模型规模下学习效率最高。8位量化可保持全精度性能，而4位量化导致显著退化，尤其角度回归，量化感知训练仅能部分恢复损失。在1兆字节激活预算下，结合亚像素解码、测试时增强和轻量验证器，MiLSD将ShanghaiTech Wireframe上的sAP10从10.6（25k参数，0.25 MB）提升至24.1。本文不试图与GPU级解析器竞争，而是绘制了嵌入式视觉系统中不同表示、位宽、容量和后处理策略下的精度-内存权衡图。

提出MiLSD，一种内存占用小于1MB的微型线段检测器，专为MCU级设备设计。
比较三种输出表示，发现F-Clip公式在小模型上学习效果最佳。

AI建设放缓的真正瓶颈：电网接入而非能源短缺

2026-07-09 11:26 UTC+8

美国拥有足够的电力来支持AI数据中心，但将其输送到需要的地方才是问题所在。电网互联排队时间从2005年的20个月增加到2023年的55个月，成为AI发展的主要障碍。市场机制本身能有效调配发电资源，但电网基础设施规划滞后。

AI建设的主要瓶颈是电网接入，而非发电能力不足。
电网互联排队时间已从20个月延长至55个月。

为什么AI基础设施必须为智能体体验进化——Modal CTO Akshat Bubna专访

2026-07-09 06:55 UTC+8

Modal公司刚完成3.55亿美元的C轮融资，其CTO Akshat Bubna在播客中阐述了从开发者体验到智能体体验的转变。他强调Kubernetes并不适合突发性AI工作负载，并介绍了Modal的AI云原生组件：无服务器函数、GPU快照、沙箱等。

Modal完成3.55亿美元C轮融资，致力于构建智能体原生云平台。
Kubernetes并非为突发性AI工作负载设计，Modal提供更灵活的基础设施。

智能体的数据

2026-07-09 01:16 UTC+8

NVIDIA 通过开放数据和合成数据推动智能体 AI 发展，强调数据质量、可检查性和信任。

NVIDIA 发布了 Nemotron 系列开放数据集，包括预训练和后训练样本。
合成数据有助于在保护公司机密的同时共享有用信号。

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

2026-07-08 23:04 UTC+8

LangChain与NVIDIA合作推出NemoClaw深度代理蓝图，结合LangChain深度代理代码、NVIDIA Nemotron 3 Ultra和OpenShell，为企业构建开放、受治理的代理系统。该蓝图在代理评估中实现了领先性能，且推理成本降低约10倍。

NemoClaw深度代理蓝图整合了LangChain的代理框架、NVIDIA的开放模型Nemotron 3 Ultra以及安全运行时OpenShell。
该蓝图在LangChain代理评估套件中达到0.86的综合得分，成本仅为4.48美元，相比竞争对手的43.48美元，推理成本降低约10倍。

数据中心是定时炸弹。我们必须确保AI的收益大于成本 | 尼基·哈特利

2026-07-08 23:00 UTC+8

数据中心消耗大量能源和水资源，并散发大量热量。除了科技精英，还有谁从这些投资中受益？气候变化和人工智能这两大生存威胁在澳大利亚及全球的数据中心爆炸式增长中交汇。

数据中心对能源和水的需求巨大，加剧气候危机。
AI的快速发展导致数据中心建设激增，引发对通胀、就业和住房可负担性的担忧。

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 与 LangChain 深度代理框架结合，在开放模型中取得最高准确率，同时以比顶级封闭模型低 10 倍的推理成本完成更多任务。该成果无需重新训练模型，而是通过优化模型周围环境实现。Abridge、Amdocs、Box 等企业正在将专业代理嵌入其平台，EY 等系统集成商则基于此开放栈为客户构建定制化代理。

LangChain 为 NVIDIA Nemotron 3 Ultra 调优的深度代理框架在开放模型中取得最高准确率，任务量更大且成本仅为封闭模型的 1/10。
所有性能提升均来自工程优化而非模型重新训练，调整包括系统提示、工具描述和中间件。

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

2026-07-08 23:00 UTC+8

Deep Agents Code现在可作为NVIDIA NemoClaw的治理蓝图运行，使用开放模型Nemotron 3 Ultra，提供默认拒绝网络、人工审批和完整审计日志，适用于敏感代码现代化。

Deep Agents Code (dcode) 作为NemoClaw蓝图，运行开放模型Nemotron 3 Ultra，确保代码、模型和审计轨迹自主可控。
默认拒绝网络、人工审批和完整审计轨迹为监管团队提供所需控制。

美国正在构建一个财富体系

2026-07-08 20:50 UTC+8

文章阐述了美国如何通过将能源转化为算力，再转化为智能，构建下一个出口层，从而重新定义国家实力。核心观点包括：经济安全始于国家能力，能源是所有产业的基石，算力是能源通往智能的转化层，以及美国需要从物理、金融、技术和文明维度同时推进战略。

美国战略的核心是将能源丰度转化为认知丰度，能源成为算力，算力成为智能，智能成为下一出口层。
国家能力（如能源、工业、半导体、算力等）是安全的基础，而非保护主义。

ZML发布免费产品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法国AI初创公司ZML在被誉为图灵奖得主Yann LeCun的支持下，推出了一款免费软件，旨在使多种开源大型语言模型能够在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在内的多种芯片上高效运行。

ZML获得Yann LeCun背书，发布免费推理加速软件
支持多种AI芯片，打破Nvidia垄断格局

NVIDIA的Cosmos-Framework教程：用全模态混合Transformer设计Colab友好的Cosmos 3世界模型微型版

2026-07-08 15:15 UTC+8

本教程从Colab实际操作角度探索NVIDIA的Cosmos框架，诚实地评估真实Cosmos 3检查点所需的硬件条件。我们检测运行时环境，基于框架的真实结构、CLI界面和输入模式，构建并训练了一个紧凑的全模态混合Transformer模型，该模型共享跨模态注意力，同时将每种模态路由到各自的专家网络。使用合成物理世界数据和自回归滚动，展示了模型如何跨文本、视觉和动作模态预测未来潜在状态。

教程从硬件探测开始，说明为何标准Colab无法运行完整的Cosmos 3 16B+模型
基于NVIDIA cosmos-framework的真实结构，构建了一个约400万参数的微型全模态混合Transformer

Light-Omni：在具有长期记忆的智能视频理解中实现反射而非推理

2026-07-08 12:00 UTC+8

Light-Omni是一种多模态智能体框架，通过双上下文状态（全局状态和参数化潜在状态）实现无需迭代推理的反射式视频理解，在多个基准测试中超越M3-Agent，速度提升12.1倍，GPU内存效率提升2.6倍，并可作为现有多模态大语言模型的记忆系统。

Light-Omni通过双上下文状态设计，在单次前向传播中构建所需上下文，避免了高昂的迭代推理。
全局状态是一个有限大小的多模态脚本，通过分层合并保留近期细节并总结过去事件。

Design-CP：用于蛋白质纳米颗粒设计的上下文并行策略

2026-07-08 12:00 UTC+8

本文提出Design-CP，为RFdiffusion 3引入两种上下文并行推理策略（1D行分片和2D网格分片），将二次激活分布到多GPU，使得在有限显存下设计大型蛋白质纳米颗粒成为可能。实验表明，2D分片在二十面体组装中扩展性更好，并成功在16GB GPU集群上实现了八面体纳米颗粒设计。

Design-CP采用1D行分片和2D网格分片两种上下文并行策略，突破单GPU显存限制。
2D分片在二十面体组装中实现更优的时钟时间扩展。

GPU 基础设施

相关主题

GPU 基础设施动态

微软人工智能建设导致去年碳排放量增加25%

纽约禁止数据中心建设一年，震动机器学习行业

TPU与GPU集群：集体通信的解剖

Nemotron Labs：开放模型如何让企业和国家拥有可信、可控、可定制的人工智能

为什么每瓦性能是AI基础设施效率的终极指标

纽约成为首个暂停新建AI数据中心的州

Meta在路易斯安那州建设5GW人工智能超级集群的成本高达500亿美元

生产中减少LLM延迟和推理成本的12种方法

Meta有望成为美国下一个大型云服务提供商

AI基础设施建设构成最新通胀威胁

利用适度非结构化稀疏权重矩阵加速大语言模型的GPU推理

“这些是有史以来最复杂的结构之一”：科技报道如何转向物理世界

内存制造商受制于繁荣-萧条过山车

科技巨头为AI数据中心竞赛加杠杆，债务激增3500亿美元

NVIDIA 基于 Tile 的 GPU 编程编码指南：从 cuTile 和 Triton 内核到 Flash Attention

Mesh LLM：基于iroh的分布式AI计算

LiteRT.js：谷歌高性能网页AI推理库

如何使用DeepAnalyze-8B构建一个适配T4的自主数据科学代理：沙盒代码执行与迭代分析

使用 Amazon SageMaker AI 无服务器模型定制微调 NVIDIA Nemotron 3 模型

在SageMaker HyperPod上实现LLM推理的分离式预填充和解码

你愿意在家里托管AI数据中心的一部分吗？

本地视频摘要管道：使用SmolVLM2-2.2B处理帧

“AI问责议程”：美国参议员提出一揽子法案以遏制技术危害

关于AI系统技术追求的随想

AI能否回答3万亿美元的问题？

韩国芯片制造商SK海力士借AI热潮在美上市募资265亿美元

TensorSharp：开源的本地LLM推理引擎

新西兰首个AI数据中心计划引发担忧，当地居民要求更多透明度

Token per watt成为存储进入AI关键路径的衡量标准

揭开Nemotron Labs 3 Puzzle 75B A9B的面纱：压缩混合MoE大语言模型实现2.03倍服务器吞吐量

快速令牌生成成为关键差异点，异构推理逐渐普及

DDN瞄准GPU效率：AI数据基础设施成为成败关键层

正式验证AI生成的GPU内核

Lab：全栈平台，训练你自己的模型

NVIDIA发布Nemotron-Labs-3-Puzzle-75B-A9B：一种压缩混合MoE大模型，在相同用户吞吐量下实现2.03倍服务器吞吐量

1.3亿美元A轮融资，构建开放超级智能堆栈

OpenClaw基金会正式成立

MiLSD：面向资源受限设备的微型线段检测器

AI建设放缓的真正瓶颈：电网接入而非能源短缺

为什么AI基础设施必须为智能体体验进化——Modal CTO Akshat Bubna专访

智能体的数据

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

数据中心是定时炸弹。我们必须确保AI的收益大于成本 | 尼基·哈特利

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

美国正在构建一个财富体系

ZML发布免费产品，加速跨AI芯片推理

NVIDIA的Cosmos-Framework教程：用全模态混合Transformer设计Colab友好的Cosmos 3世界模型微型版

Light-Omni：在具有长期记忆的智能视频理解中实现反射而非推理

Design-CP：用于蛋白质纳米颗粒设计的上下文并行策略

更多增长标签

AI 编程

MCP

开源模型

推理成本

Agent 框架

中国 AI

模型定价

DeepSeek

Qwen