2026-05-03站内改写

DeepSeek V4最大的遺憾

DeepSeek V4的技術報告中缺少了Engram模塊，引發熱議。Engram是一種為Transformer設計的原生知識查表模塊，旨在分離靜態知識檢索與深度推理。儘管未在V4中出現，但後續有三篇論文探索了其在CXL內存池化、無衝突熱層優化及視覺模態的應用。

文章情報

工程師進階

要點

DeepSeek V4未包含此前備受期待的Engram模塊。
Engram通過哈希查找機制實現靜態知識的高效檢索，釋放深層網絡用於推理。
後續研究拓展了Engram的應用，包括CXL內存池化、無衝突熱層實驗及視覺Tiny Engram。

為甚麼重要

這條新聞值得關注，因為DeepSeek V4未包含此前備受期待的Engram模塊。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

DeepSeek V4最大的遺憾 – 量子位

首頁

資訊

智能車

智庫

活動

MEET大會

AIGC

掃碼關注量子位

-->

DeepSeek V4最大的遺憾

Jay 2026-05-03 11:43:37

來源：量子位

Engram去哪了？

henry 發自凹非寺

量子位 | 公眾號 QbitAI

DeepSeekV4的技術報告裏有mHC，有CSA，有HCA，有Muon，有FP4……

唯獨沒有Engram。

Engram去哪了？

這個話題一度成為網友們討論的熱點。

Engram在今年1月由DeepSeek和北大聯合開源，主要研究大模型的記憶與效率問題。

自掛上arXiv的那一刻起，圈子裏圍繞它的探討就沒有停止過…

不僅僅因為它是V4的前奏，而是有了Engram，「倫敦是英國首都」這種事實，模型不用動用整個深層網絡去重新推一遍，直接查就行。

不僅省顯存，還能釋放深層網絡容量，用於更高階的推理。

正因如此，自1月初論文發表以來，所有人都覺得，Engram就是V4的架構地基，所有人都在盼。

以至於V4發表後，大家第一時間就是command+f去論文裏找Engram，可惜並沒有。

以至於不少網友甚至覺得，沒有Engram，V4就是不完整的。

沒有Engram，可能是DeepSeekV4最大的遺憾。

不過，Engram並沒有消失。隨後三篇值得注意的論文接力出現：

CXL內存池化版本：把Engram放進多機共享的CXL內存池，解決大模型多機部署的存儲問題。

無衝突熱層實驗：對Engram的多頭哈希優化進行了實證檢驗，證偽了一些直覺式改進方案。

視覺Tiny Engram：AutoArk團隊把文本Engram搬到視覺模態，擴展了它的應用邊界。

所以，雖然V4沒有Engram，但它的理念、探索和後續應用已經悄然鋪開，為下一代模型打下基礎。

Engram到底是什麼

把時間倒回2026年1月12日。

那一天，DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin，北大博士生，曾經署名過V3。最後一位作者，梁文鋒。

先來一句話速通版，Engram是給Transformer加的一個原生知識查表模塊。能查的別算，先查一下。

團隊的核心觀察是，語言建模其實包含兩種性質完全不同的任務，一種是需要深度動態計算的組合推理，另一種是檢索靜態知識。

之前的問題在於，Transformer把這兩件事混在一起做。模型識別一個實體時，得消耗好幾層注意力和前饋網絡逐層拼湊特徵。

論文裏舉了個例子，「Diana，Princess of Wales」。模型要走6層才能把這個識別完。

前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態，最後一層才反應過來這是戴安娜王妃。

這種「用昂貴的運行時計算重建一個靜態查找表」的活，本來可以讓深層網絡去幹更高階的推理。

對此，Engram的思路相當直接，既然經典的N-gram模型就能用O(1)的時間複雜度捕獲這些局部依賴，那乾脆把這能力直接嵌進Transformer。

打個比方，就像你做數學題，該用的公式不必每次從頭推一遍，翻表代進去就行。Transformer之前沒這張表，只能每道題都從公理走起。Engram等於把這張表交到模型手裏。

具體做法是，在Transformer的第2層和第15層之間各插入一個Engram模塊。

每個位置的輸入會觸發一次哈希查找，把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表裏，直接取出對應的向量。

門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏，但「張仲景」三個字湊一起就是固定歷史人物實體了，門控就負責認出這種區別。

Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化，只激活一部分專家。Engram是把存儲稀疏化，只查一部分條目。兩者互補，不衝突。

論文最核心的一段實驗，是固定總參數和每token激活參數，然後讓MoE專家和Engram記憶搶預算，得到一條U形曲線。

純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram，模型loss達到最低點。

按這個曲線指導，團隊把Engram擴到27B驗證。激活參數3.8B，訓練262B tokens，嚴格跟MoE-27B基線對齊。

結果知識密集型任務的提升符合預期(MMLU +3.4，CMMLU +4.0)，但通用推理和代碼數學的提升超出預期(BBH +5.0，ARC-Challenge +3.7，HumanEval +3.0，MATH +2.4)，長上下文場景更誇張，Multi-Query NIAH從84.2%躍升到97.0%。

那麼，為什麼記憶模塊還能反過來提升推理?

LogitLens和CKA給出了答案，Engram-27B第5層的表徵，跟MoE基線第12層的表徵最相似。

Engram把模型的早期層從「重建靜態知識」這種苦力活裏解放出來，這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶，它還變相把網絡加深了。

工程上。論文把一個1000億參數的Engram表整個甩到host DRAM，在H800上跑推理，8B-Dense的吞吐損失只有2.8%。

靠的是Engram索引的確定性，只取決於輸入token序列，完全可以提前算，CPU異步預取跟GPU計算重疊。

可以説，這個模塊天生就不靠HBM，只可惜如今V4來了，Engram沒來。

沒在v4，但在其他地方

發明者把它放在那裏沒動，但路上還是有人。三個月裏，至少出現了三個值得説一下的工作。

把Engram塞進CXL內存池

3月10日，北大、阿里雲、山東英信、人大、港大聯合發了一篇系統論文，《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他們沒改Engram本身，而是回答了一個更工程的問題，如果Engram真的成了下一代標配，內存放哪。

答案是CXL內存池化。GPU HBM放計算權重，本地DRAM做二級緩存，CXL池做三級。8台服務器共享4TB內存池，XConn XC50256交換芯片做拓撲，512GB/s帶寬。

整套集成進SGLang，做了預取-計算重疊，跑下來端到端吞吐損失小於5%。Engram論文裏那句「1000億嵌入表卸載DRAM」的輕描淡寫，被他們做成了27B和40B兩個規模的真實測試。

結論很清楚，Engram這種確定性尋址、可預取的負載，幾乎是為CXL量身定做的。

一個反直覺的實驗

Engram論文上線第十一天，1月23日，一個叫TaoLin的研究者，單作者，放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想驗證一個看上去顯然的優化，Engram用多頭哈希查表會有衝突，如果把高頻N-gram用Minimal Perfect Hash Function完全消除衝突，模型會不會更好。

他設計了Engram-Nine，把記憶分成無衝突的「熱層」和保留多頭哈希的「冷層」。

結果反直覺。在嚴格iso-parameter控制下，無衝突設計沒有穩定提升驗證loss。

route-stratified評估還發現，訓練初期熱路徑(高頻)loss更低，但訓練後期冷路徑反過來超過熱路徑。

一個看上去顯然的優化方向，被一個真做實驗的人證偽了。

把Engram推到視覺(AutoArk/TinyEngram)

GitHub上一個叫AutoArk的團隊搞了Tiny Engram。

基於Qwen-3完整復現文本Engram之後，他們做了一件論文裏沒做的事，把Engram搬到Stable Diffusion上。

視覺patch經過分層編碼，底層抓紋理，中層抓部件，高層抓風格，然後整套丟進哈希查表。

跟LoRA比下來，達到同等效果，Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時，LoRA會出現明顯的概念退化，Engram不會。

Engram原本是為文本設計的。AutoArk等於把這扇門撞開了，凡是能離散化、能哈希的模態，Engram都能搬。

三個月裏，Engram這條路上，發明者最沉默，跟進者各自走了一步。

一個團隊替它解決多機內存層級，一個獨立研究者證偽了它一個看似顯然的優化方向，一個開源團隊把它推到了視覺。

而deepseek-ai/Engram這個倉庫，最後一次提交還停在1月14日。

One more thing

Engram論文的摘要結尾有一句話：

我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。

看來，這個下一代得是V5了，難不成會是V4.1?

參考鏈接

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

Deepseek

Jay

突破視覺仿真算力瓶頸！新一代具身智能仿真框架開源：高吞吐並行高保真渲染助力規模化訓練2026-05-03

銀河通用LDA定義全域數據利用範式，跨本體世界動作大模型開啓具身GPT-2時刻2026-04-29

量子位專訪樓天城：AI是匹脱繮野馬，Harness是這個時代最關鍵的能力2026-04-27

華人再破硅谷天花板！AI黑馬新任CTO，中科大80後2026-04-24

掃碼分享至朋友圈

相關閲讀

DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍，核心代碼僅300行

網友：我的英偉達股票啊……

十三2025-02-26

Deepseek DeepSeek R1 DeepSeek V3 開源

DeepSeek刪豆包衝上熱搜，大模型世子之爭演都不演了

大模型版“我和你媽掉水裏”橫評來了

聞樂2025-08-21

AI大模型 Deepseek 豆包

百度搜索×DeepSeek！官宣接入僅24小時全量上線滿血版，實測來了

這下真是遍地開花了

一水2025-02-18

Deepseek 百度搜索

馬蜂窩AI智能體成首個接入DeepSeek的旅遊行業應用

首階段將優先應用於已上線發佈的“AI遊貴州”、“AI遊黔西南”、“AI遊西江” 省市景區三級AI應用生態

明敏2025-02-12

Deepseek

4090單卡跑滿血版DeepSeek-R1，清華團隊開源項目再破大模型推理門檻

用異構計算打開一條新的推理路徑

魚羊2025-02-12

4090 Deepseek KTransformers

DeepSeek開源第二彈，為MoE和EP量身定製的通信庫！暫和英偉達顯卡綁定

本次開源周應均與AI Infra相關

衡宇2025-02-25

Deepseek 開源通信庫