Sophon PFG-1:单片3D AI ASIC,集成330 GB片上DRAM,无需HBM
PhantaField的PFG-1“Sophon”芯片采用单片3D堆叠和2D-TMD晶体管,将330GB DRAM集成在片上,消除了HBM。它提供2,100 TFLOPS BF16和4,200 TFLOPS FP8性能,能效比NVIDIA Rubin高174倍,适用于训练和推理。
PhantaField公司发布了其PFG-1“Sophon”芯片的详细白皮书,这是一款基于单片3D(M3D)技术的AI加速器,集成了330GB的片上DRAM,完全消除了对高带宽内存(HBM)的需求。该芯片采用32层2D过渡金属二硫属化物(TMD)晶体管堆叠,在750 mm²的die上实现了统一的训练和推理能力。
Sophon的核心是一种2T0C增益单元DRAM,利用TMD晶体管的极低关断电流(约1 fA/μm)实现多秒的数据保留,无需传统的存储电容。这种设计不仅支持无限次写入循环,使其适合训练中的梯度更新,还允许芯片在空闲时功耗降至约3瓦。每个内存单元面积为8 F²,比传统1T1C DRAM更紧凑。
计算方面,Sophon采用纯数字存内计算(CIM),每个256×256的DRAM子阵列通过二进制感测放大器和8级加法器树在500 MHz下运行。整个芯片包含131,072个这样的瓦片,分布在32个逻辑层上,提供2,100 TFLOPS的BF16性能(FP8模式下为4,200 TFLOPS,INT8模式下为8,400 TOPS)。权重的读取通过垂直的单片层间通孔(MIV)直接完成,无需经过片上网络,从而实现了4.2 PB/s的权重带宽。
与2026年的NVIDIA Rubin(R200)和AMD Instinct MI455X GPU相比,Sophon在低批量推理中展现出显著优势。对于80B参数的模型,Sophon在BF16下达到7,219 tokens/s,FP8模式下达到14,438 tokens/s,每瓦token数比Rubin高约174倍。这得益于其消除了HBM带宽瓶颈,因为HBM4的带宽约为22 TB/s,而Sophon的片上权重带宽高达4.2 PB/s,是前者的191倍以上。
经济性方面,Sophon的物料成本仅为8,358美元,而一个NVIDIA VR200 NVL72机架的成本约为780万美元,其中HBM内存约占200万美元。Sophon通过消除HBM,将硬件成本降低了约9.9倍。该芯片还支持在训练和推理之间弹性分配资源,无需更换硬件。
尽管Sophon的峰值浮点性能仅为高端GPU的约21-24%,但在低批量场景下,其极高的权重带宽使其在实际AI工作负载中表现卓越。PhantaField计划进一步扩展该架构,未来可能实现更大的容量和更高的性能。