Tensordyne 推出採用對數數學的 Napier AI 處理器
Tensordyne 發佈了 Napier,一款基於 3nm 工藝的 AI 處理器和機架級推理平台,其核心是專有的對數數學方法,將乘法運算轉化為加法,從而減小乘法器面積,增加片上 SRAM,並改善機架級推理經濟性。Napier 芯片擁有 1380 億個晶體管,單芯片算力達 2.1 petaflops,並配備 256MB SRAM 和 144GB HBM3E。完整的 TDN72 機架系統包含 72 個節點,總算力 68 petaflops,HBM 總容量 42TB,支持高達 10-20 萬億參數的模型。Tensordyne 聲稱其 TDN72 機架在推理兩萬億參數 GPT MoE 模型時,單個 120kW 機架即可達到每用户每秒 1300 個 token,而競品需要更多機架和功耗。Napier 採用空氣冷卻,並計劃於 2027 年 Q1 啓動測試項目,Q2 末開始系統出貨。
Tensordyne 宣佈推出 Napier AI 處理器,這是一款基於 3nm 工藝的AI推理加速器及機架級平台。與眾多新興AI芯片初創公司不同,Tensordyne 的亮點在於其專有的對數數學方法。該公司聲稱,通過將乘法運算轉化為加法,可以大幅減小乘法器的面積,從而釋放更多片上空間用於 SRAM 緩存,並優化整個機架級推理的經濟性。目前 Napier 芯片已經流片,但系統級產品預計要到 2027 年才能面世。因此,其性能和軟件方面的承諾能否在實際部署中經受考驗,仍是業界關注的焦點。
Tensordyne 將 Napier 定位為同時提升推理速度和降低成本的有效方案。傳統的AI加速器高度依賴矩陣乘法單元,而對數數學方法則通過以加法代替乘法,使得邏輯單元更小、功耗更低,從而在相同芯片面積下容納更多內存,實現更好的系統平衡。為此,Tensordyne 不僅推出芯片,還同步發佈了集羣架構,旨在構建完整的生態系統。
在當今的AI基礎設施討論中,峯值算力(TOPS或FLOPS)已不再是唯一焦點。長上下文推理、智能體工作流和混合專家模型往往受限於內存、互連帶寬、解碼吞吐量、機架功耗和散熱能力。Tensordyne 認為,通過更均衡的芯片和機架設計,可以在每機架 token 數和每兆瓦 token 數上超越當前的高端競品。
具體對比方面,Tensordyne 將其 TDN72 機架與多個競品機架配置進行了比較。針對兩萬億參數的 GPT 混合專家模型,公司宣稱單個 120kW 的 TDN72 機架即可實現每用户每秒 1300 token 的吞吐量,而 NVIDIA 和 Groq 需要 9 個機架、1.5MW 功耗,AWS 和 Cerebras 則需要 14 個機架、800kW 功耗。這些數據固然引人注目,但 Napier 目前仍處於產品發佈階段,尚未交付。
完整的 TDN72 系統由 72 個節點構成,總算力達 68 petaflops,配備 42TB HBM。Tensordyne 表示,該系統專為 10 萬億到 20 萬億參數級別的模型設計,這類模型的內存佔用和專家路由機制會給系統級設計帶來巨大挑戰。這正是機架級設計發揮優勢的領域——如果互連、內存或散熱成為瓶頸,單純增加加速器數量並無益處。
Napier 芯片本身基於台積電 3nm 工藝,內含 1380 億個晶體管,單芯片算力 2.1 petaflops,加速核主頻 1.33GHz,CPU 主頻 1.5GHz,集成 256MB 片上 SRAM 和 144GB HBM3E。尤其值得關注的是,Tensordyne 聲稱 Napier 的 SRAM 容量是 NVIDIA Blackwell 的五倍。如果這一數據在真實工作負載中成立,額外的大容量 SRAM 將有助於將更多數據保留在計算單元附近,減少數據搬運帶來的性能損失。
對數數學理念是 Napier 架構的核心創新。Tensordyne 指出,縮減乘法器面積後,釋放的空間可用於增加 SRAM,同時通過脈動陣列和向量處理器來保障吞吐量。這與目前主流的堆疊密集矩陣運算單元的思路截然不同。不過,這一創新也需要獨立的第三方工作負載驗證,因為改變數值計算方式可能帶來精度、軟件適配和模型遷移等方面的挑戰。
在組板層面,Tensordyne 將 9 顆 Napier 芯片封裝在一塊 1U 高的 AI 計算托盤中,每塊托盤配備 1.3TB HBM3E、8TB 存儲、Intel Xeon 主控 CPU 和雙口 200GbE 網絡。四塊托盤組成一個 TDN72 單元組,四個單元組可容納在一個標準 52U 機架中。值得注意的是,Tensordyne 採用空氣冷卻而非液冷,這對於大規模AI部署是一個實用考量。另外,前端僅使用 200GbE 而非更高速的 PCIe Gen6,表明 Intel Xeon 主控 CPU 可能不支持 800Gbps 的峯值帶寬。
擴展互連方面,Tensordyne 推出了名為 TDN Link 的專有互連技術,可在 72 芯片系統中提供亞微秒級芯片間延遲和 1TB/s 帶寬。對於混合專家模型和智能體工作負載,互連性能至關重要,因為它直接影響專家路由、激活值傳輸和多用户併發請求的處理。與 NVL72 的脊形拓撲不同,Tensordyne 的方案更接近傳統的機架交換網絡。
拓撲靈活性是互連方案的另一個賣點。Tensordyne 表示可將任意芯片分組用於特定工作負載,這有助於在軟件層面實現透明故障切換和模型放置。但這一功能的實際效果取決於集羣調度器、模型服務層、故障處理和可觀測性等要素的成熟度。
軟件生態可能是 Napier 面臨的最大挑戰。Tensordyne 計劃提供基於 Hugging Face 的模型中心、直接編譯 PyTorch 和 Triton 定義模型的能力,以及名為 tensordyne.nn 的自定義 Python eDSL。然而,NVIDIA 的 CUDA 生態擁有龐大的框架、內核、調試工具、部署模式和開發者習慣。任何新的 AI 加速器都必須在軟件易用性上足夠出色,才能吸引客户嘗試。
合作伙伴方面,Tensordyne 正與 HPE 和 Juniper 合作開發機箱和基礎設施組件,這有助於其以系統供應商而非單純芯片廠商的身份贏得信任。通過 Broadcom 在台積電完成 3nm 流片是一個重要里程碑,但機架級 AI 系統還需要供應鏈、平台驗證、現場支持和願意在全新架構上部署工作負載的客户。
時間也是關鍵挑戰。Tensordyne 計劃於 2027 年第一季度啓動 beta 測試,第二季度末開始系統出貨。到那時,NVIDIA、AMD、超大規模企業的內部芯片項目、Cerebras、Groq 等競爭對手都將有進一步的發展。Napier 需要證明其宣稱的效率在真實模型服務、軟件棧和客户運營場景中確實有效。
總的來説,Tensordyne Napier 是近年來最值得關注的 AI 加速器之一,因為它試圖從根本上改變數學計算方式,而非僅僅在規模上超越 NVIDIA。構建一款外形與 NVIDIA 相似但宣稱更便宜的加速器通常難以成功,因此數學上的創新才引人注目。3nm 流片、1380 億晶體管、大容量 SRAM、42TB HBM 機架配置以及風冷 TDN72 系統,都使得 Napier 值得持續關注。然而,從驚豔的發佈到成功的 AI 平台之間仍有巨大鴻溝。每機架性能和每兆瓦性能確實是正確的衡量指標。如果 Tensordyne 的技術能夠落地並在 2027 年實現交付,Napier 有望成為推理基礎設施的重要替代方案。或許屆時我們將看到數十億美元級別的交易。在此之前,這仍是一個雄心勃勃但尚需證明的架構,值得我們拭目以待。