Sophon PFG-1:單片3D AI ASIC,整合330 GB片上DRAM,無需HBM
PhantaField的PFG-1“Sophon”晶片採用單片3D堆疊和2D-TMD電晶體,將330GB DRAM整合在片上,消除了HBM。它提供2,100 TFLOPS BF16和4,200 TFLOPS FP8效能,能效比NVIDIA Rubin高174倍,適用於訓練和推理。
PhantaField公司釋出了其PFG-1“Sophon”晶片的詳細白皮書,這是一款基於單片3D(M3D)技術的AI加速器,整合了330GB的片上DRAM,完全消除了對高頻寬記憶體(HBM)的需求。該晶片採用32層2D過渡金屬二硫屬化物(TMD)電晶體堆疊,在750 mm²的die上實現了統一的訓練和推理能力。
Sophon的核心是一種2T0C增益單元DRAM,利用TMD電晶體的極低關斷電流(約1 fA/μm)實現多秒的資料保留,無需傳統的儲存電容。這種設計不僅支援無限次寫入迴圈,使其適合訓練中的梯度更新,還允許晶片在空閒時功耗降至約3瓦。每個記憶體單元面積為8 F²,比傳統1T1C DRAM更緊湊。
計算方面,Sophon採用純數字存內計算(CIM),每個256×256的DRAM子陣列透過二進位制感測放大器和8級加法器樹在500 MHz下執行。整個晶片包含131,072個這樣的瓦片,分佈在32個邏輯層上,提供2,100 TFLOPS的BF16效能(FP8模式下為4,200 TFLOPS,INT8模式下為8,400 TOPS)。權重的讀取透過垂直的單片層間通孔(MIV)直接完成,無需經過片上網路,從而實現了4.2 PB/s的權重頻寬。
與2026年的NVIDIA Rubin(R200)和AMD Instinct MI455X GPU相比,Sophon在低批次推理中展現出顯著優勢。對於80B引數的模型,Sophon在BF16下達到7,219 tokens/s,FP8模式下達到14,438 tokens/s,每瓦token數比Rubin高約174倍。這得益於其消除了HBM頻寬瓶頸,因為HBM4的頻寬約為22 TB/s,而Sophon的片上權重頻寬高達4.2 PB/s,是前者的191倍以上。
經濟性方面,Sophon的物料成本僅為8,358美元,而一個NVIDIA VR200 NVL72機架的成本約為780萬美元,其中HBM記憶體約佔200萬美元。Sophon透過消除HBM,將硬體成本降低了約9.9倍。該晶片還支援在訓練和推理之間彈性分配資源,無需更換硬體。
儘管Sophon的峰值浮點效能僅為高階GPU的約21-24%,但在低批次場景下,其極高的權重頻寬使其在實際AI工作負載中表現卓越。PhantaField計劃進一步擴充套件該架構,未來可能實現更大的容量和更高的效能。