2026-06-29 09:23 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-29 12:22 UTC+8

Sophon PFG-1：單片3D AI ASIC，整合330 GB片上DRAM，無需HBM

PhantaField的PFG-1“Sophon”晶片採用單片3D堆疊和2D-TMD電晶體，將330GB DRAM整合在片上，消除了HBM。它提供2,100 TFLOPS BF16和4,200 TFLOPS FP8效能，能效比NVIDIA Rubin高174倍，適用於訓練和推理。

來源Hacker News AI作者: minkowsky

PhantaField公司釋出了其PFG-1“Sophon”晶片的詳細白皮書，這是一款基於單片3D（M3D）技術的AI加速器，整合了330GB的片上DRAM，完全消除了對高頻寬記憶體（HBM）的需求。該晶片採用32層2D過渡金屬二硫屬化物（TMD）電晶體堆疊，在750 mm²的die上實現了統一的訓練和推理能力。

Sophon的核心是一種2T0C增益單元DRAM，利用TMD電晶體的極低關斷電流（約1 fA/μm）實現多秒的資料保留，無需傳統的儲存電容。這種設計不僅支援無限次寫入迴圈，使其適合訓練中的梯度更新，還允許晶片在空閒時功耗降至約3瓦。每個記憶體單元面積為8 F²，比傳統1T1C DRAM更緊湊。

計算方面，Sophon採用純數字存內計算（CIM），每個256×256的DRAM子陣列透過二進位制感測放大器和8級加法器樹在500 MHz下執行。整個晶片包含131,072個這樣的瓦片，分佈在32個邏輯層上，提供2,100 TFLOPS的BF16效能（FP8模式下為4,200 TFLOPS，INT8模式下為8,400 TOPS）。權重的讀取透過垂直的單片層間通孔（MIV）直接完成，無需經過片上網路，從而實現了4.2 PB/s的權重頻寬。

與2026年的NVIDIA Rubin（R200）和AMD Instinct MI455X GPU相比，Sophon在低批次推理中展現出顯著優勢。對於80B引數的模型，Sophon在BF16下達到7,219 tokens/s，FP8模式下達到14,438 tokens/s，每瓦token數比Rubin高約174倍。這得益於其消除了HBM頻寬瓶頸，因為HBM4的頻寬約為22 TB/s，而Sophon的片上權重頻寬高達4.2 PB/s，是前者的191倍以上。

經濟性方面，Sophon的物料成本僅為8,358美元，而一個NVIDIA VR200 NVL72機架的成本約為780萬美元，其中HBM記憶體約佔200萬美元。Sophon透過消除HBM，將硬體成本降低了約9.9倍。該晶片還支援在訓練和推理之間彈性分配資源，無需更換硬體。

儘管Sophon的峰值浮點效能僅為高階GPU的約21-24%，但在低批次場景下，其極高的權重頻寬使其在實際AI工作負載中表現卓越。PhantaField計劃進一步擴充套件該架構，未來可能實現更大的容量和更高的效能。