AI News HubLIVE
站内改写3 分钟阅读

Tensordyne 推出采用对数数学的 Napier AI 处理器

Tensordyne 发布了 Napier,一款基于 3nm 工艺的 AI 处理器和机架级推理平台,其核心是专有的对数数学方法,将乘法运算转化为加法,从而减小乘法器面积,增加片上 SRAM,并改善机架级推理经济性。Napier 芯片拥有 1380 亿个晶体管,单芯片算力达 2.1 petaflops,并配备 256MB SRAM 和 144GB HBM3E。完整的 TDN72 机架系统包含 72 个节点,总算力 68 petaflops,HBM 总容量 42TB,支持高达 10-20 万亿参数的模型。Tensordyne 声称其 TDN72 机架在推理两万亿参数 GPT MoE 模型时,单个 120kW 机架即可达到每用户每秒 1300 个 token,而竞品需要更多机架和功耗。Napier 采用空气冷却,并计划于 2027 年 Q1 启动测试项目,Q2 末开始系统出货。

来源Hacker News AI作者: lumpa

Tensordyne 宣布推出 Napier AI 处理器,这是一款基于 3nm 工艺的AI推理加速器及机架级平台。与众多新兴AI芯片初创公司不同,Tensordyne 的亮点在于其专有的对数数学方法。该公司声称,通过将乘法运算转化为加法,可以大幅减小乘法器的面积,从而释放更多片上空间用于 SRAM 缓存,并优化整个机架级推理的经济性。目前 Napier 芯片已经流片,但系统级产品预计要到 2027 年才能面世。因此,其性能和软件方面的承诺能否在实际部署中经受考验,仍是业界关注的焦点。

Tensordyne 将 Napier 定位为同时提升推理速度和降低成本的有效方案。传统的AI加速器高度依赖矩阵乘法单元,而对数数学方法则通过以加法代替乘法,使得逻辑单元更小、功耗更低,从而在相同芯片面积下容纳更多内存,实现更好的系统平衡。为此,Tensordyne 不仅推出芯片,还同步发布了集群架构,旨在构建完整的生态系统。

在当今的AI基础设施讨论中,峰值算力(TOPS或FLOPS)已不再是唯一焦点。长上下文推理、智能体工作流和混合专家模型往往受限于内存、互连带宽、解码吞吐量、机架功耗和散热能力。Tensordyne 认为,通过更均衡的芯片和机架设计,可以在每机架 token 数和每兆瓦 token 数上超越当前的高端竞品。

具体对比方面,Tensordyne 将其 TDN72 机架与多个竞品机架配置进行了比较。针对两万亿参数的 GPT 混合专家模型,公司宣称单个 120kW 的 TDN72 机架即可实现每用户每秒 1300 token 的吞吐量,而 NVIDIA 和 Groq 需要 9 个机架、1.5MW 功耗,AWS 和 Cerebras 则需要 14 个机架、800kW 功耗。这些数据固然引人注目,但 Napier 目前仍处于产品发布阶段,尚未交付。

完整的 TDN72 系统由 72 个节点构成,总算力达 68 petaflops,配备 42TB HBM。Tensordyne 表示,该系统专为 10 万亿到 20 万亿参数级别的模型设计,这类模型的内存占用和专家路由机制会给系统级设计带来巨大挑战。这正是机架级设计发挥优势的领域——如果互连、内存或散热成为瓶颈,单纯增加加速器数量并无益处。

Napier 芯片本身基于台积电 3nm 工艺,内含 1380 亿个晶体管,单芯片算力 2.1 petaflops,加速核主频 1.33GHz,CPU 主频 1.5GHz,集成 256MB 片上 SRAM 和 144GB HBM3E。尤其值得关注的是,Tensordyne 声称 Napier 的 SRAM 容量是 NVIDIA Blackwell 的五倍。如果这一数据在真实工作负载中成立,额外的大容量 SRAM 将有助于将更多数据保留在计算单元附近,减少数据搬运带来的性能损失。

对数数学理念是 Napier 架构的核心创新。Tensordyne 指出,缩减乘法器面积后,释放的空间可用于增加 SRAM,同时通过脉动阵列和向量处理器来保障吞吐量。这与目前主流的堆叠密集矩阵运算单元的思路截然不同。不过,这一创新也需要独立的第三方工作负载验证,因为改变数值计算方式可能带来精度、软件适配和模型迁移等方面的挑战。

在组板层面,Tensordyne 将 9 颗 Napier 芯片封装在一块 1U 高的 AI 计算托盘中,每块托盘配备 1.3TB HBM3E、8TB 存储、Intel Xeon 主控 CPU 和双口 200GbE 网络。四块托盘组成一个 TDN72 单元组,四个单元组可容纳在一个标准 52U 机架中。值得注意的是,Tensordyne 采用空气冷却而非液冷,这对于大规模AI部署是一个实用考量。另外,前端仅使用 200GbE 而非更高速的 PCIe Gen6,表明 Intel Xeon 主控 CPU 可能不支持 800Gbps 的峰值带宽。

扩展互连方面,Tensordyne 推出了名为 TDN Link 的专有互连技术,可在 72 芯片系统中提供亚微秒级芯片间延迟和 1TB/s 带宽。对于混合专家模型和智能体工作负载,互连性能至关重要,因为它直接影响专家路由、激活值传输和多用户并发请求的处理。与 NVL72 的脊形拓扑不同,Tensordyne 的方案更接近传统的机架交换网络。

拓扑灵活性是互连方案的另一个卖点。Tensordyne 表示可将任意芯片分组用于特定工作负载,这有助于在软件层面实现透明故障切换和模型放置。但这一功能的实际效果取决于集群调度器、模型服务层、故障处理和可观测性等要素的成熟度。

软件生态可能是 Napier 面临的最大挑战。Tensordyne 计划提供基于 Hugging Face 的模型中心、直接编译 PyTorch 和 Triton 定义模型的能力,以及名为 tensordyne.nn 的自定义 Python eDSL。然而,NVIDIA 的 CUDA 生态拥有庞大的框架、内核、调试工具、部署模式和开发者习惯。任何新的 AI 加速器都必须在软件易用性上足够出色,才能吸引客户尝试。

合作伙伴方面,Tensordyne 正与 HPE 和 Juniper 合作开发机箱和基础设施组件,这有助于其以系统供应商而非单纯芯片厂商的身份赢得信任。通过 Broadcom 在台积电完成 3nm 流片是一个重要里程碑,但机架级 AI 系统还需要供应链、平台验证、现场支持和愿意在全新架构上部署工作负载的客户。

时间也是关键挑战。Tensordyne 计划于 2027 年第一季度启动 beta 测试,第二季度末开始系统出货。到那时,NVIDIA、AMD、超大规模企业的内部芯片项目、Cerebras、Groq 等竞争对手都将有进一步的发展。Napier 需要证明其宣称的效率在真实模型服务、软件栈和客户运营场景中确实有效。

总的来说,Tensordyne Napier 是近年来最值得关注的 AI 加速器之一,因为它试图从根本上改变数学计算方式,而非仅仅在规模上超越 NVIDIA。构建一款外形与 NVIDIA 相似但宣称更便宜的加速器通常难以成功,因此数学上的创新才引人注目。3nm 流片、1380 亿晶体管、大容量 SRAM、42TB HBM 机架配置以及风冷 TDN72 系统,都使得 Napier 值得持续关注。然而,从惊艳的发布到成功的 AI 平台之间仍有巨大鸿沟。每机架性能和每兆瓦性能确实是正确的衡量指标。如果 Tensordyne 的技术能够落地并在 2027 年实现交付,Napier 有望成为推理基础设施的重要替代方案。或许届时我们将看到数十亿美元级别的交易。在此之前,这仍是一个雄心勃勃但尚需证明的架构,值得我们拭目以待。