Sophon PFG-1:モノリシック3D AI ASIC、330 GBのオンダイDRAMを搭載しHBM不要
PhantaFieldのPFG-1「Sophon」チップは、モノリシック3D積層と2D-TMDトランジスタを使用して330GBのDRAMをオンダイに集積し、HBMを排除。BF16で2,100 TFLOPS、FP8で4,200 TFLOPSの性能を提供し、NVIDIA Rubin比で174倍のトークン/Wを実現、トレーニングと推論の両方に適する。
PhantaField社は、PFG-1「Sophon」チップの詳細なホワイトペーパーを公開しました。これはモノリシック3D(M3D)技術に基づくAIアクセラレータで、330GBのオンダイDRAMを統合し、高帯域メモリ(HBM)を完全に排除しています。このチップは32層の2D遷移金属ダイカルコゲナイド(TMD)トランジスタを積層し、750 mm²のダイ上で統一されたトレーニングと推論機能を実現します。
Sophonの核心は2T0CゲインセルDRAMであり、TMDトランジスタの極めて低いオフ電流(約1 fA/μm)を利用して、従来のストレージキャパシタなしで数秒間のデータ保持を実現します。この設計は無制限の書き込みサイクルをサポートし、トレーニング中の勾配更新に適しているだけでなく、アイドル時の消費電力を約3ワットに抑えます。各メモリセルの面積は8 F²で、従来の1T1C DRAMよりもコンパクトです。
演算面では、Sophonは純粋なデジタル計算インメモリ(CIM)を採用し、各256×256 DRAMサブアレイは500 MHzで動作するバイナリセンスアンプと8レベル加算ツリーを備えています。チップ全体には131,072個のタイルが32のロジック層に分散され、BF16で2,100 TFLOPS(FP8モードで4,200 TFLOPS、INT8モードで8,400 TOPS)の性能を提供します。重みの読み出しは垂直のモノリシック層間ビア(MIV)を介して直接行われ、オンチップネットワークを経由しないため、4.2 PB/sの重み帯域幅を実現します。
2026年のNVIDIA Rubin(R200)およびAMD Instinct MI455X GPUと比較して、Sophonは低バッチ推論において顕著な優位性を示します。80Bパラメータモデルでは、SophonはBF16で7,219トークン/秒、FP8モードで14,438トークン/秒を達成し、トークン/WはRubinの約174倍です。これはHBM帯域幅のボトルネックを排除した結果であり、HBM4の帯域幅が約22 TB/sであるのに対し、Sophonのオンダイ重み帯域幅は4.2 PB/sと190倍以上です。
経済性については、Sophonの部品コストは8,358ドルであるのに対し、NVIDIA VR200 NVL72ラックのコストは約780万ドルで、そのうちHBMメモリが約200万ドルを占めます。SophonはHBMを排除することで、ハードウェアコストを約9.9倍削減します。このチップはトレーニングと推論の間でリソースを弾力的に再配分でき、ハードウェアの変更は不要です。
Sophonのピーク浮動小数点性能はハイエンドGPUの約21-24%に過ぎませんが、低バッチシナリオではその高い重み帯域幅により、実際のAIワークロードで優れた性能を発揮します。PhantaFieldは将来的に、さらなる大容量化と高性能化を目指してアーキテクチャを拡張する予定です。