AI News HubLIVE
站内改写

DeepSeek V4最大的遺憾

DeepSeek V4的技術報告中缺少了Engram模塊,引發熱議。Engram是一種為Transformer設計的原生知識查表模塊,旨在分離靜態知識檢索與深度推理。儘管未在V4中出現,但後續有三篇論文探索了其在CXL內存池化、無衝突熱層優化及視覺模態的應用。

文章情報

工程師進階

要點

  • DeepSeek V4未包含此前備受期待的Engram模塊。
  • Engram通過哈希查找機制實現靜態知識的高效檢索,釋放深層網絡用於推理。
  • 後續研究拓展了Engram的應用,包括CXL內存池化、無衝突熱層實驗及視覺Tiny Engram。

為甚麼重要

這條新聞值得關注,因為DeepSeek V4未包含此前備受期待的Engram模塊。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

DeepSeek V4最大的遺憾 – 量子位

首頁

資訊

智能車

智庫

活動

MEET大會

AIGC

掃碼關注量子位

-->

DeepSeek V4最大的遺憾

Jay 2026-05-03 11:43:37

來源:量子位

Engram去哪了?

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

DeepSeekV4的技術報告裏有mHC,有CSA,有HCA,有Muon,有FP4……

唯獨沒有Engram。

Engram去哪了?

這個話題一度成為網友們討論的熱點。

Engram在今年1月由DeepSeek和北大聯合開源,主要研究大模型的記憶與效率問題。

自掛上arXiv的那一刻起,圈子裏圍繞它的探討就沒有停止過…

不僅僅因為它是V4的前奏,而是有了Engram,「倫敦是英國首都」這種事實,模型不用動用整個深層網絡去重新推一遍,直接查就行。

不僅省顯存,還能釋放深層網絡容量,用於更高階的推理。

正因如此,自1月初論文發表以來,所有人都覺得,Engram就是V4的架構地基,所有人都在盼。

以至於V4發表後,大家第一時間就是command+f去論文裏找Engram,可惜並沒有。

以至於不少網友甚至覺得,沒有Engram,V4就是不完整的。

沒有Engram,可能是DeepSeekV4最大的遺憾。

不過,Engram並沒有消失。隨後三篇值得注意的論文接力出現:

CXL內存池化版本:把Engram放進多機共享的CXL內存池,解決大模型多機部署的存儲問題。

無衝突熱層實驗:對Engram的多頭哈希優化進行了實證檢驗,證偽了一些直覺式改進方案。

視覺Tiny Engram:AutoArk團隊把文本Engram搬到視覺模態,擴展了它的應用邊界。

所以,雖然V4沒有Engram,但它的理念、探索和後續應用已經悄然鋪開,為下一代模型打下基礎。

Engram到底是什麼

把時間倒回2026年1月12日。

那一天,DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經署名過V3。最後一位作者,梁文鋒。

先來一句話速通版,Engram是給Transformer加的一個原生知識查表模塊。能查的別算,先查一下。

團隊的核心觀察是,語言建模其實包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種是檢索靜態知識。

之前的問題在於,Transformer把這兩件事混在一起做。模型識別一個實體時,得消耗好幾層注意力和前饋網絡逐層拼湊特徵。

論文裏舉了個例子,「Diana,Princess of Wales」。模型要走6層才能把這個識別完。

前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態,最後一層才反應過來這是戴安娜王妃。

這種「用昂貴的運行時計算重建一個靜態查找表」的活,本來可以讓深層網絡去幹更高階的推理。

對此,Engram的思路相當直接,既然經典的N-gram模型就能用O(1)的時間複雜度捕獲這些局部依賴,那乾脆把這能力直接嵌進Transformer。

打個比方,就像你做數學題,該用的公式不必每次從頭推一遍,翻表代進去就行。Transformer之前沒這張表,只能每道題都從公理走起。Engram等於把這張表交到模型手裏。

具體做法是,在Transformer的第2層和第15層之間各插入一個Engram模塊。

每個位置的輸入會觸發一次哈希查找,把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表裏,直接取出對應的向量。

門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏,但「張仲景」三個字湊一起就是固定歷史人物實體了,門控就負責認出這種區別。

Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化,只激活一部分專家。Engram是把存儲稀疏化,只查一部分條目。兩者互補,不衝突。

論文最核心的一段實驗,是固定總參數和每token激活參數,然後讓MoE專家和Engram記憶搶預算,得到一條U形曲線。

純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram,模型loss達到最低點。

按這個曲線指導,團隊把Engram擴到27B驗證。激活參數3.8B,訓練262B tokens,嚴格跟MoE-27B基線對齊。

結果知識密集型任務的提升符合預期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數學的提升超出預期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長上下文場景更誇張,Multi-Query NIAH從84.2%躍升到97.0%。

那麼,為什麼記憶模塊還能反過來提升推理?

LogitLens和CKA給出了答案,Engram-27B第5層的表徵,跟MoE基線第12層的表徵最相似。

Engram把模型的早期層從「重建靜態知識」這種苦力活裏解放出來,這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶,它還變相把網絡加深了。

工程上。論文把一個1000億參數的Engram表整個甩到host DRAM,在H800上跑推理,8B-Dense的吞吐損失只有2.8%。

靠的是Engram索引的確定性,只取決於輸入token序列,完全可以提前算,CPU異步預取跟GPU計算重疊。

可以説,這個模塊天生就不靠HBM,只可惜如今V4來了,Engram沒來。

沒在v4,但在其他地方

發明者把它放在那裏沒動,但路上還是有人。三個月裏,至少出現了三個值得説一下的工作。

把Engram塞進CXL內存池

3月10日,北大、阿里雲、山東英信、人大、港大聯合發了一篇系統論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他們沒改Engram本身,而是回答了一個更工程的問題,如果Engram真的成了下一代標配,內存放哪。

答案是CXL內存池化。GPU HBM放計算權重,本地DRAM做二級緩存,CXL池做三級。8台服務器共享4TB內存池,XConn XC50256交換芯片做拓撲,512GB/s帶寬。

整套集成進SGLang,做了預取-計算重疊,跑下來端到端吞吐損失小於5%。Engram論文裏那句「1000億嵌入表卸載DRAM」的輕描淡寫,被他們做成了27B和40B兩個規模的真實測試。

結論很清楚,Engram這種確定性尋址、可預取的負載,幾乎是為CXL量身定做的。

一個反直覺的實驗

Engram論文上線第十一天,1月23日,一個叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想驗證一個看上去顯然的優化,Engram用多頭哈希查表會有衝突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除衝突,模型會不會更好。

他設計了Engram-Nine,把記憶分成無衝突的「熱層」和保留多頭哈希的「冷層」。

結果反直覺。在嚴格iso-parameter控制下,無衝突設計沒有穩定提升驗證loss。

route-stratified評估還發現,訓練初期熱路徑(高頻)loss更低,但訓練後期冷路徑反過來超過熱路徑。

一個看上去顯然的優化方向,被一個真做實驗的人證偽了。

把Engram推到視覺(AutoArk/TinyEngram)

GitHub上一個叫AutoArk的團隊搞了Tiny Engram。

基於Qwen-3完整復現文本Engram之後,他們做了一件論文裏沒做的事,把Engram搬到Stable Diffusion上。

視覺patch經過分層編碼,底層抓紋理,中層抓部件,高層抓風格,然後整套丟進哈希查表。

跟LoRA比下來,達到同等效果,Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時,LoRA會出現明顯的概念退化,Engram不會。

Engram原本是為文本設計的。AutoArk等於把這扇門撞開了,凡是能離散化、能哈希的模態,Engram都能搬。

三個月裏,Engram這條路上,發明者最沉默,跟進者各自走了一步。

一個團隊替它解決多機內存層級,一個獨立研究者證偽了它一個看似顯然的優化方向,一個開源團隊把它推到了視覺。

而deepseek-ai/Engram這個倉庫,最後一次提交還停在1月14日。

One more thing

Engram論文的摘要結尾有一句話:

我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。

看來,這個下一代得是V5了,難不成會是V4.1?

參考鏈接

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

Deepseek

Jay

突破視覺仿真算力瓶頸!新一代具身智能仿真框架開源:高吞吐並行高保真渲染助力規模化訓練2026-05-03

銀河通用LDA定義全域數據利用範式,跨本體世界動作大模型開啓具身GPT-2時刻2026-04-29

量子位專訪樓天城:AI是匹脱繮野馬,Harness是這個時代最關鍵的能力2026-04-27

華人再破硅谷天花板!AI黑馬新任CTO,中科大80後2026-04-24

掃碼分享至朋友圈

相關閲讀

DeepSeek開源第三彈:V3/R1訓練推理關鍵秘籍,核心代碼僅300行

網友:我的英偉達股票啊……

十三2025-02-26

Deepseek DeepSeek R1 DeepSeek V3 開源

DeepSeek刪豆包衝上熱搜,大模型世子之爭演都不演了

大模型版“我和你媽掉水裏”橫評來了

聞樂2025-08-21

AI大模型 Deepseek 豆包

百度搜索×DeepSeek!官宣接入僅24小時全量上線滿血版,實測來了

這下真是遍地開花了

一水2025-02-18

Deepseek 百度搜索

馬蜂窩AI智能體成首個接入DeepSeek的旅遊行業應用

首階段將優先應用於已上線發佈的“AI遊貴州”、“AI遊黔西南”、“AI遊西江” 省市景區三級AI應用生態

明敏2025-02-12

Deepseek

4090單卡跑滿血版DeepSeek-R1,清華團隊開源項目再破大模型推理門檻

用異構計算打開一條新的推理路徑

魚羊2025-02-12

4090 Deepseek KTransformers

DeepSeek開源第二彈,為MoE和EP量身定製的通信庫!暫和英偉達顯卡綁定

本次開源周應均與AI Infra相關

衡宇2025-02-25

Deepseek 開源 通信庫

熱門文章

騰訊開源手機端離線翻譯模型,僅0.4G,支持33種語言

2026-04-29

Stripe 發佈 288 項新功能,構建 AI 時代的經濟基礎設施

2026-04-30

商湯楊帆談AI拐點:從人用AI到人機協作,本質是生產關係重構

2026-04-30

全球矚目!斑陌易行閃耀硅谷,T6 無人車開啓商用新紀元

2026-04-29

阿里發佈數字員工產品QoderWake,可承擔工程師、運營、銷售等崗位角色

2026-04-30

搜索:

搜索

-->

關於量子位

加入我們

尋求報道

商務合作

-->

掃碼關注量子位

追蹤人工智能新趨勢,報道科技行業新突破

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1