Tensordyne 將 AI 矩陣數學轉換為對數以提升推理效能
Tensordyne 推出基於對數運算的 Napier 推理晶片,將矩陣乘法轉換為加法,大幅提升效能、降低功耗和成本。該晶片採用 3 奈米工藝,功耗僅 300 瓦,支援多種資料格式,計劃 2026 年底提供雲訪問。
Tensordyne 公司近日釋出了其創新的 Napier AI 推理引擎,該引擎透過將對數運算引入矩陣乘法,顯著提升了推理效能並降低了功耗。Napier 晶片以蘇格蘭數學家約翰·納皮爾命名,他發明了對數。該晶片的核心思想是將資料轉換為對數形式,從而用加法替代乘法,因為加法在硬體上更容易實現。與傳統的 GPU 相比,這種對數方法提供了超過一個數量級的效能提升,同時降低了成本和能耗。
Napier 晶片包含 48 個對數核心,每個核心內建 128×128 的脈動陣列,並支援 NVFP4、FP8 和 FP16 等資料格式。此外,晶片還整合了向量處理單元和 RISC-V 核心,用於處理 softmax 等操作以及 MoE 路由等任務。整個晶片採用 TSMC 的 3 奈米工藝製造,擁有 1380 億個電晶體,功耗僅為 300 瓦,是 NVIDIA Blackwell B300 的 1/4 左右。低功耗使得該系統可以風冷,非常適合城市資料中心等環境。
在系統架構方面,Tensordyne 將 9 個 Napier 晶片與一個 40 核 Xeon 處理器組成一個計算托盤,每個機架可容納 288 個晶片。機架內還整合了 320 個 Xeon 核心和 4608 個 RISC-V 核心,用於處理不同層次的推理任務。每個機架配備 64 個 200 Gb/s 的乙太網連結,用於跨機架通訊。
Tensordyne 由 RK Anand 和 Gilles Backhus 共同創立,兩人此前曾創辦專注於自動駕駛 AI 的公司 Recogni。公司已從三個融資輪次中籌集了 1.76 億美元,團隊超過 120 人。Napier 晶片由 Broadcom 負責代工,確保 HBM 記憶體和晶圓的供應。Tensordyne 計劃在 2026 年底提供雲訪問,2027 年第一季度向客戶交付測試系統。如果 Napier 晶片能夠大規模生產並支援主流推理框架,它可能成為 AI 硬體領域的“DeepSeek 時刻”,改變當前市場格局。