AI News HubLIVE
站内改写

DeepSeek V4最大の遺憾

DeepSeek V4のテクニカルレポートには多数の革新が含まれているが、Engramモジュールが欠落していることが話題となった。EngramはTransformer向けのネイティブ知識参照テーブルであり、静的な知識検索と深い推論を分離する。V4には含まれなかったが、その後3つの論文がCXLメモリプーリング、衝突なしホットレイヤー最適化、視覚モダリティへの応用を探求した。

記事インテリジェンス

エンジニア上級

要点

  • DeepSeek V4には期待されていたEngramモジュールが含まれていなかった。
  • Engramはハッシュ参照により静的な知識を効率的に検索し、深層ネットワークを推論に解放する。
  • 後続の研究ではCXLメモリプーリング、衝突なしホットレイヤー、視覚Tiny Engramなどの応用が拡張された。

重要な理由

このニュースが重要なのは、DeepSeek V4には期待されていたEngramモジュールが含まれていなかったためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

DeepSeek V4のテクニカルレポートにはmHC、CSA、HCA、Muon、FP4といった革新が詰まっている。しかし、コミュニティで最も注目された欠落はEngramだった。この条件付きメモリモジュールは、2026年1月にDeepSeekと北京大学が共同でオープンソース化したもので、V4のアーキテクチャ基盤になると広く期待されていた。その不在により、V4は不完全だと感じる声が多く上がった。

では、Engramとは正確には何か?核心は、Transformerにネイティブな知識参照テーブルである。言語モデリングには、深い動的計算を必要とする構成推論と、静的な知識検索という2つの根本的に異なるタスクが含まれるという洞察に基づく。従来のTransformerはこれらを混同し、検索可能な事実を再構築するためにレイヤーを無駄にしていた。例えば、「ダイアナ妃(Diana, Princess of Wales)」を認識するには、モデルが6層を経て徐々に特徴を組み立てる必要があった。Engramはこれを回避するため、Transformerの第2層から第15層の間に参照モジュールを挿入する。各位置でハッシュ参照が行われ、現在のトークンとその前のN-gramコンテキストを巨大な埋め込みテーブルにマッピングし、関連ベクトルを直接取得する。ゲーティング機構により、文脈に合わない一致はフィルタリングされる。このアプローチは、EngramをMoEとは別のスパース軸として扱う。MoEは計算をスパース化し、Engramはストレージをスパース化する。

論文の中核実験では、総パラメータとトークンあたりの活性化パラメータを固定し、MoEエキスパートとEngramメモリの間に予算を配分した。結果はU字曲線となり、純粋なMoEは最適ではなく、スパースパラメータの20~25%をEngramに割り当てることで損失が最小化された。この曲線に従い、チームはEngramを27Bパラメータ(活性化3.8B)にスケールし、262Bトークンでトレーニングして検証した。知識集約型タスクでは期待通りの改善(MMLU +3.4、CMMLU +4.0)が見られたが、推論、コード、数学での改善は予想を超えた(BBH +5.0、ARC-Challenge +3.7、HumanEval +3.0、MATH +2.4)。長文脈性能は劇的に向上し、Multi-Query NIAHが84.2%から97.0%に跳ね上がった。なぜメモリモジュールが推論を強化するのか?LogitLensとCKAによる分析では、Engram-27Bの第5層の表現がMoEベースラインの第12層の表現と最も類似していた。Engramは初期レイヤーを静的な知識の再構築から解放し、事実上ネットワークを深くした。

工学的には、1000億パラメータのEngramテーブルはホストDRAMに配置され、H800上の8B-denseモデルでスループット損失はわずか2.8%である。これは決定論的インデックスによりCPUプリフェッチがGPU計算とオーバーラップできるためである。

V4には搭載されなかったが、数ヶ月のうちに3つの後続論文が登場した。

  1. **CXLメモリプーリング**(3月10日):北京大学、阿里雲などが共同で、Engramを共有CXLメモリプールに移すことを提案。8台のサーバーで4TBプールを共有し、エンドツーエンドのスループット損失は5%未満。Engramの決定論的アドレス指定はCXLに理想的である。
  1. **衝突なしホットレイヤー実験**(1月23日):研究者Tao Linが、高頻度N-gramのハッシュ衝突を最小完全ハッシュで排除することで性能が向上するかをテスト。驚くべきことに、衝突なし設計では等パラメータ条件下で安定した損失改善は見られなかった。この直感に反する結果は、単純な最適化が必ずしも機能しないことを示唆する。
  1. **視覚Tiny Engram**:AutoArkチームがEngramを視覚タスクに拡張。Qwen-3ベースでテキスト版を再現後、Stable Diffusionに適用。LoRAと比較して、Engramは同等の効果を15~30%のパラメータで達成し、複数の新しい概念を注入する際のLoRAに見られる概念劣化も見られなかった。

これらの発展は、V4がEngramを逃したものの、その原理が未来の研究に影響を与え続けていることを示している。元のEngramリポジトリは1月14日以降更新されていないが、コミュニティは積極的に可能性を探求している。Engram論文の結論にあるように、「条件付きメモリは次世代のスパースモデルにとって不可欠なモデリングプリミティブになると信じている」。おそらくその次世代はV5、あるいはV4.1になるかもしれない。