AI News HubLIVE
站内改写1 分钟阅读

Tensordyne 将 AI 矩阵数学转换为对数以提升推理性能

Tensordyne 推出基于对数运算的 Napier 推理芯片,将矩阵乘法转换为加法,大幅提升性能、降低功耗和成本。该芯片采用 3 纳米工艺,功耗仅 300 瓦,支持多种数据格式,计划 2026 年底提供云访问。

来源Hacker News AI作者: peter_d_sherman

Tensordyne 公司近日发布了其创新的 Napier AI 推理引擎,该引擎通过将对数运算引入矩阵乘法,显著提升了推理性能并降低了功耗。Napier 芯片以苏格兰数学家约翰·纳皮尔命名,他发明了对数。该芯片的核心思想是将数据转换为对数形式,从而用加法替代乘法,因为加法在硬件上更容易实现。与传统的 GPU 相比,这种对数方法提供了超过一个数量级的性能提升,同时降低了成本和能耗。

Napier 芯片包含 48 个对数核心,每个核心内置 128×128 的脉动阵列,并支持 NVFP4、FP8 和 FP16 等数据格式。此外,芯片还集成了向量处理单元和 RISC-V 核心,用于处理 softmax 等操作以及 MoE 路由等任务。整个芯片采用 TSMC 的 3 纳米工艺制造,拥有 1380 亿个晶体管,功耗仅为 300 瓦,是 NVIDIA Blackwell B300 的 1/4 左右。低功耗使得该系统可以风冷,非常适合城市数据中心等环境。

在系统架构方面,Tensordyne 将 9 个 Napier 芯片与一个 40 核 Xeon 处理器组成一个计算托盘,每个机架可容纳 288 个芯片。机架内还集成了 320 个 Xeon 核心和 4608 个 RISC-V 核心,用于处理不同层次的推理任务。每个机架配备 64 个 200 Gb/s 的以太网链接,用于跨机架通信。

Tensordyne 由 RK Anand 和 Gilles Backhus 共同创立,两人此前曾创办专注于自动驾驶 AI 的公司 Recogni。公司已从三个融资轮次中筹集了 1.76 亿美元,团队超过 120 人。Napier 芯片由 Broadcom 负责代工,确保 HBM 内存和晶圆的供应。Tensordyne 计划在 2026 年底提供云访问,2027 年第一季度向客户交付测试系统。如果 Napier 芯片能够大规模生产并支持主流推理框架,它可能成为 AI 硬件领域的“DeepSeek 时刻”,改变当前市场格局。