Tensordyne 推出採用對數數學的 Napier AI 處理器
Tensordyne 釋出了 Napier,一款基於 3nm 工藝的 AI 處理器和機架級推理平臺,其核心是專有的對數數學方法,將乘法運算轉化為加法,從而減小乘法器面積,增加片上 SRAM,並改善機架級推理經濟性。Napier 晶片擁有 1380 億個電晶體,單晶片算力達 2.1 petaflops,並配備 256MB SRAM 和 144GB HBM3E。完整的 TDN72 機架系統包含 72 個節點,總算力 68 petaflops,HBM 總容量 42TB,支援高達 10-20 萬億引數的模型。Tensordyne 聲稱其 TDN72 機架在推理兩萬億引數 GPT MoE 模型時,單個 120kW 機架即可達到每使用者每秒 1300 個 token,而競品需要更多機架和功耗。Napier 採用空氣冷卻,並計劃於 2027 年 Q1 啟動測試專案,Q2 末開始系統出貨。
Tensordyne 宣佈推出 Napier AI 處理器,這是一款基於 3nm 工藝的AI推理加速器及機架級平臺。與眾多新興AI晶片初創公司不同,Tensordyne 的亮點在於其專有的對數數學方法。該公司聲稱,透過將乘法運算轉化為加法,可以大幅減小乘法器的面積,從而釋放更多片上空間用於 SRAM 快取,並最佳化整個機架級推理的經濟性。目前 Napier 晶片已經流片,但系統級產品預計要到 2027 年才能面世。因此,其效能和軟體方面的承諾能否在實際部署中經受考驗,仍是業界關注的焦點。
Tensordyne 將 Napier 定位為同時提升推理速度和降低成本的有效方案。傳統的AI加速器高度依賴矩陣乘法單元,而對數數學方法則透過以加法代替乘法,使得邏輯單元更小、功耗更低,從而在相同晶片面積下容納更多記憶體,實現更好的系統平衡。為此,Tensordyne 不僅推出晶片,還同步釋出了叢集架構,旨在構建完整的生態系統。
在當今的AI基礎設施討論中,峰值算力(TOPS或FLOPS)已不再是唯一焦點。長上下文推理、智慧體工作流和混合專家模型往往受限於記憶體、互連頻寬、解碼吞吐量、機架功耗和散熱能力。Tensordyne 認為,透過更均衡的晶片和機架設計,可以在每機架 token 數和每兆瓦 token 數上超越當前的高階競品。
具體對比方面,Tensordyne 將其 TDN72 機架與多個競品機架配置進行了比較。針對兩萬億引數的 GPT 混合專家模型,公司宣稱單個 120kW 的 TDN72 機架即可實現每使用者每秒 1300 token 的吞吐量,而 NVIDIA 和 Groq 需要 9 個機架、1.5MW 功耗,AWS 和 Cerebras 則需要 14 個機架、800kW 功耗。這些資料固然引人注目,但 Napier 目前仍處於產品釋出階段,尚未交付。
完整的 TDN72 系統由 72 個節點構成,總算力達 68 petaflops,配備 42TB HBM。Tensordyne 表示,該系統專為 10 萬億到 20 萬億引數級別的模型設計,這類模型的記憶體佔用和專家路由機制會給系統級設計帶來巨大挑戰。這正是機架級設計發揮優勢的領域——如果互連、記憶體或散熱成為瓶頸,單純增加加速器數量並無益處。
Napier 晶片本身基於臺積電 3nm 工藝,內含 1380 億個電晶體,單晶片算力 2.1 petaflops,加速核主頻 1.33GHz,CPU 主頻 1.5GHz,整合 256MB 片上 SRAM 和 144GB HBM3E。尤其值得關注的是,Tensordyne 聲稱 Napier 的 SRAM 容量是 NVIDIA Blackwell 的五倍。如果這一資料在真實工作負載中成立,額外的大容量 SRAM 將有助於將更多資料保留在計算單元附近,減少資料搬運帶來的效能損失。
對數數學理念是 Napier 架構的核心創新。Tensordyne 指出,縮減乘法器面積後,釋放的空間可用於增加 SRAM,同時透過脈動陣列和向量處理器來保障吞吐量。這與目前主流的堆疊密集矩陣運算單元的思路截然不同。不過,這一創新也需要獨立的第三方工作負載驗證,因為改變數值計算方式可能帶來精度、軟體適配和模型遷移等方面的挑戰。
在組板層面,Tensordyne 將 9 顆 Napier 晶片封裝在一塊 1U 高的 AI 計算托盤中,每塊托盤配備 1.3TB HBM3E、8TB 儲存、Intel Xeon 主控 CPU 和雙口 200GbE 網路。四塊托盤組成一個 TDN72 單元組,四個單元組可容納在一個標準 52U 機架中。值得注意的是,Tensordyne 採用空氣冷卻而非液冷,這對於大規模AI部署是一個實用考量。另外,前端僅使用 200GbE 而非更高速的 PCIe Gen6,表明 Intel Xeon 主控 CPU 可能不支援 800Gbps 的峰值頻寬。
擴充套件互連方面,Tensordyne 推出了名為 TDN Link 的專有互連技術,可在 72 晶片系統中提供亞微秒級晶片間延遲和 1TB/s 頻寬。對於混合專家模型和智慧體工作負載,互連效能至關重要,因為它直接影響專家路由、啟用值傳輸和多使用者併發請求的處理。與 NVL72 的脊形拓撲不同,Tensordyne 的方案更接近傳統的機架交換網路。
拓撲靈活性是互連方案的另一個賣點。Tensordyne 表示可將任意晶片分組用於特定工作負載,這有助於在軟體層面實現透明故障切換和模型放置。但這一功能的實際效果取決於叢集排程器、模型服務層、故障處理和可觀測性等要素的成熟度。
軟體生態可能是 Napier 面臨的最大挑戰。Tensordyne 計劃提供基於 Hugging Face 的模型中心、直接編譯 PyTorch 和 Triton 定義模型的能力,以及名為 tensordyne.nn 的自定義 Python eDSL。然而,NVIDIA 的 CUDA 生態擁有龐大的框架、核心、除錯工具、部署模式和開發者習慣。任何新的 AI 加速器都必須在軟體易用性上足夠出色,才能吸引客戶嘗試。
合作伙伴方面,Tensordyne 正與 HPE 和 Juniper 合作開發機箱和基礎設施元件,這有助於其以系統供應商而非單純晶片廠商的身份贏得信任。透過 Broadcom 在臺積電完成 3nm 流片是一個重要里程碑,但機架級 AI 系統還需要供應鏈、平臺驗證、現場支援和願意在全新架構上部署工作負載的客戶。
時間也是關鍵挑戰。Tensordyne 計劃於 2027 年第一季度啟動 beta 測試,第二季度末開始系統出貨。到那時,NVIDIA、AMD、超大規模企業的內部晶片專案、Cerebras、Groq 等競爭對手都將有進一步的發展。Napier 需要證明其宣稱的效率在真實模型服務、軟體棧和客戶運營場景中確實有效。
總的來說,Tensordyne Napier 是近年來最值得關注的 AI 加速器之一,因為它試圖從根本上改變數學計算方式,而非僅僅在規模上超越 NVIDIA。構建一款外形與 NVIDIA 相似但宣稱更便宜的加速器通常難以成功,因此數學上的創新才引人注目。3nm 流片、1380 億電晶體、大容量 SRAM、42TB HBM 機架配置以及風冷 TDN72 系統,都使得 Napier 值得持續關注。然而,從驚豔的釋出到成功的 AI 平臺之間仍有巨大鴻溝。每機架效能和每兆瓦效能確實是正確的衡量指標。如果 Tensordyne 的技術能夠落地並在 2027 年實現交付,Napier 有望成為推理基礎設施的重要替代方案。或許屆時我們將看到數十億美元級別的交易。在此之前,這仍是一個雄心勃勃但尚需證明的架構,值得我們拭目以待。