Sophon PFG-1:單片3D AI ASIC,集成330 GB片上DRAM,無需HBM
PhantaField的PFG-1“Sophon”芯片採用單片3D堆疊和2D-TMD晶體管,將330GB DRAM集成在片上,消除了HBM。它提供2,100 TFLOPS BF16和4,200 TFLOPS FP8性能,能效比NVIDIA Rubin高174倍,適用於訓練和推理。
PhantaField公司發佈了其PFG-1“Sophon”芯片的詳細白皮書,這是一款基於單片3D(M3D)技術的AI加速器,集成了330GB的片上DRAM,完全消除了對高帶寬內存(HBM)的需求。該芯片採用32層2D過渡金屬二硫屬化物(TMD)晶體管堆疊,在750 mm²的die上實現了統一的訓練和推理能力。
Sophon的核心是一種2T0C增益單元DRAM,利用TMD晶體管的極低關斷電流(約1 fA/μm)實現多秒的數據保留,無需傳統的存儲電容。這種設計不僅支持無限次寫入循環,使其適合訓練中的梯度更新,還允許芯片在空閒時功耗降至約3瓦。每個內存單元面積為8 F²,比傳統1T1C DRAM更緊湊。
計算方面,Sophon採用純數字存內計算(CIM),每個256×256的DRAM子陣列通過二進制感測放大器和8級加法器樹在500 MHz下運行。整個芯片包含131,072個這樣的瓦片,分佈在32個邏輯層上,提供2,100 TFLOPS的BF16性能(FP8模式下為4,200 TFLOPS,INT8模式下為8,400 TOPS)。權重的讀取通過垂直的單片層間通孔(MIV)直接完成,無需經過片上網絡,從而實現了4.2 PB/s的權重帶寬。
與2026年的NVIDIA Rubin(R200)和AMD Instinct MI455X GPU相比,Sophon在低批量推理中展現出顯著優勢。對於80B參數的模型,Sophon在BF16下達到7,219 tokens/s,FP8模式下達到14,438 tokens/s,每瓦token數比Rubin高約174倍。這得益於其消除了HBM帶寬瓶頸,因為HBM4的帶寬約為22 TB/s,而Sophon的片上權重帶寬高達4.2 PB/s,是前者的191倍以上。
經濟性方面,Sophon的物料成本僅為8,358美元,而一個NVIDIA VR200 NVL72機架的成本約為780萬美元,其中HBM內存約佔200萬美元。Sophon通過消除HBM,將硬件成本降低了約9.9倍。該芯片還支持在訓練和推理之間彈性分配資源,無需更換硬件。
儘管Sophon的峯值浮點性能僅為高端GPU的約21-24%,但在低批量場景下,其極高的權重帶寬使其在實際AI工作負載中表現卓越。PhantaField計劃進一步擴展該架構,未來可能實現更大的容量和更高的性能。