2026-05-08 16:20 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Redis之父下場，給DeepSeek V4單獨造了一台推理引擎

Redis創始人antirez為DeepSeek V4 Flash打造專用推理引擎ds4.c，在Mac上實現本地高性能運行，支持2-bit量化、KV緩存硬盤化及API兼容層，引發對模型專屬推理框架的討論。

來源量子位作者: henry

Redis之父下場，給DeepSeek V4單獨造了一台推理引擎 – 量子位

首頁

資訊

智能車

智庫

活動

MEET大會

AIGC

掃碼關注量子位

-->

Redis之父下場，給DeepSeek V4單獨造了一台推理引擎

henry 2026-05-08 16:20:40

來源：量子位

Mac上就能本地跑deepseek

henry 發自凹非寺

量子位 | 公眾號 QbitAi

DeepSeek V4，已經開始逼着海外開發者為它修專屬高速公路了。

發佈才兩週，開源圈裏，第一批V4原生基礎設施已經冒了出來。

而且，不是那種在現有框架上套一層殼的“小修小補”。

不是通用GGUF加載器；不是llama.cpp的wrapper；甚至壓根不支持別的模型。

它只幹一件事：

把DeepSeek V4 Flash，在Mac上跑到極致。

這條“專屬高速公路”，叫ds4.c。而把修出來的人，分量有點嚇人——

Salvatore Sanfilippo，程序員圈更熟悉他的另一個名字：antirez。

他一手創造了 Redis（GitHub 7.4 萬 Star），並親自主導這個全球最流行的內存數據庫整整 11 年。

而現在，他的新項目ds4.c，是一個專門為DeepSeek V4 Flash打造的本地推理引擎。

時間線上，已經有網友在128GB Mac上把它跑了起來。

可以説，這波，Mac庫存又被DeepSeek清了一遍。

鯨魚，確實值得。

專為V4 Flash打造的本地推理引擎

4月24日，DeepSeek發佈V4系列。其中，V4 Flash是效率型號：284B總參數、13B激活參數、100萬token上下文。

這樣的體量，過去幾乎默認屬於雲端。

而antirez想做的，是把它塞進一台Mac。於是，ds4.c誕生了。

這是一個用C + Metal從頭寫出來的推理引擎。

整個項目就幾個文件，C佔55.4%，Objective-C 30.2%，Metal 13.8%。Metal-only，沒有運行時，沒有框架依賴，沒有抽象層。

Metal-only。

Metal是蘋果自家的圖形和計算API，在Mac、iPhone、iPad上調用GPU都靠它，相當於蘋果生態裏的CUDA。

ds4只用Metal的意思是，這個引擎只在Apple Silicon上跑，不管Nvidia顯卡，也不管AMD。

整個項目只有一個目標：

讓V4 Flash在本地的蘋果機器上，不只是“能跑”，而是真正“能用”。

目前測試結果已經相當誇張：

在128GB內存的MacBook Pro M3 Max上，2-bit量化、32K上下文，短prompt預填充58.52 token/s，生成26.68 token/s。

換成512GB的Mac Studio M3 Ultra，長prompt（11709 token）預填充能到468.03 token/s，生成27.39 token/s。

對一個284B參數的MoE模型來説，這個速度在本地機器上是可用的。

怎麼做到的？

關鍵在三件事。

第一，非對稱量化。

ds4並不會把所有參數都壓到2-bit，而是隻量化路由的MoE專家層，up/gate用IQ2_XXS，down用Q2_K，這些層佔了模型空間的絕大部分。

其他組件，共享專家層、投影層、路由層，全部保留Q8精度不動。

antirez在README裏寫了一句很直接的話：

這些2-bit量化不是開玩笑，它們在coding agent下表現良好，能可靠地調用工具。

第二，KV緩存搬到硬盤上。

現在的LLM agent客户端都是無狀態的，每次請求把整段對話重新發一遍。

通用引擎的做法是每次重新做prefill。

ds4的做法是把KV狀態寫到磁盤上，下次請求過來匹配token前綴，命中了就直接從磁盤加載，跳過prefill。

緩存的key是token ID序列的SHA1哈希值。

這對Claude Code這種每次啓動會發25K token初始prompt的agent場景尤其有用，第一次prefill完成後，後續會話直接從磁盤恢復。

第三，內置OpenAI和Anthropic兩套API兼容層。

/v1/chat/completions走OpenAI協議，/v1/messages走Anthropic協議。tool calling也做了適配。README裏直接給了opencode、Pi、Claude Code三種agent客户端的配置示例。

關於為什麼要做這件事。

antirez的回答是，本地推理領域有很多優秀項目，但新模型不斷髮布，注意力立刻被下一個要實現的模型吸走。

通用引擎為了兼容所有模型，必須做抽象。抽象意味着妥協。他想做的是一條刻意的窄路，一次只賭一個模型，用官方logits做驗證，做長上下文測試，做足夠的agent集成來確認它真的能用。

框架一經發布，就有網友不少網友反饋，已經在Mac上跑起來了。

你準備好在本地跑V4了嗎？

一個模型一個推理框架

這件事，也在開發者圈炸出了一個更大的討論：

未來會不會變成——一個模型，一個推理框架？

Hacker News上一條高贊評論提了一個有意思的方向，如果開始針對精確的GPU加模型組合構建超優化推理引擎呢？

GPU越來越貴，如果去掉足夠多的抽象層，直接針對精確的硬件和模型編碼，可能能優化很多。

這條路的代價也很明顯。同一條評論指出，一旦模型過時，一切從頭來過。

antirez自己也承認了這個問題。他説ds4當前賭的是DeepSeek V4 Flash，但模型可能會換。

不變的約束是，本地推理要在高端個人機器或Mac Studio上跑得靠譜，起步128GB內存。

未來會怎樣，README裏留了個伏筆。

當前是Metal-only，未來可能會做CUDA支持。但他寫得很謹慎，也許會，但僅此而已。這個項目刻意保持小、快、專注。

更值得關注的是他在README裏拋出的一個觀點，本地推理應該是三件事一起做好，開箱即用。

一個有HTTP API的推理引擎，一份針對這個引擎和這套假設特別打造的GGUF，一套和coding agent對接的測試和驗證。

這是一種全棧本地推理的思路，不是把組件拼起來，是把鏈路當成一個產品來設計。

如果這條路走通了，它可能改變本地推理的玩法。

模型廠商發佈新模型的同時，社區裏就會有人跳出來給它做專屬引擎，做專屬量化，做專屬agent接入。每一代模型都有一個自己的「antirez」。

ds4還有一個很坦率的細節。README裏有一段聲明，這個軟件是在GPT 5.5的「強力輔助」下開發的，人類負責想法、測試和調試。

antirez説如果你不接受AI輔助開發的代碼，這個軟件不適合你。

兩週時間，從fork llama.cpp做適配，到從頭寫一個專用引擎，離不開AI輔助。這件事本身可能比ds4還更值得關注。

One more thing

最後説一下antirez這個人。

真名Salvatore Sanfilippo，1977年出生於西西里島。2009年創建Redis，主導這個項目十一年，2020年離開。

離開時他寫過一段話，説自己寫代碼是為了表達自己，代碼是一件製品而不只是有用的工具。他寧可被記住為一個糟糕的藝術家，也不願被記住為一個好程序員。

2024年底他回到Redis，擔任evangelist角色。

除了Redis之外，他還寫過Kilo（不到1000行C代碼的文本編輯器）、dump1090（航空ADS-B信號解碼器）、linenoise（readline的微型替代品）。

他還在玩Flipper Zero，寫了RF協議分析工具，把Asteroids移植到上面。2022年他出了一本科幻小説《WOHPE》，主題是AI、氣候變化、程序員，以及人類和技術的互動。

他個人主頁第一行寫的是，「我把大部分專業時間花在寫代碼和寫小説上。」

關於Redis的誕生，他在個人主頁裏寫了一段：

我老婆説，Redis的前幾年我大部分代碼都是坐在馬桶上寫的，用一台MacBook Air 11寸。我真希望能説她錯了，但她正好説得完全對。

這種調性貫穿了他做的所有項目。小、精確、自成一體。

ds4.c也是同一個路子。

看一下他在ds4 README裏關於macOS bug的那段備註，能立刻感覺到這個人的味道。

ds4有一個CPU推理路徑用於正確性驗證，但當前版本的macOS在虛擬內存實現上有一個bug，跑CPU推理會導致內核崩潰。

他寫道，記住了嗎？軟件都很爛。我沒法修復CPU推理來避免崩潰，因為每次都得重啓電腦，一點都不好玩。

然後加了一句，如果你有膽量，來幫我們。

他在個人主頁裏還留了一句話：

現代編程正變得複雜、無趣，全是要粘合的層。它正失去大部分美感。大多數程序員既不在面對編程的藝術面，也不在面對編程的高級工程面。

從Redis到ds4.c，十五年過去，antirez還是那個antirez。

只不過這一次，他開始給AI修路了。

參考鏈接

[1]http://invece.org/

[2]https://github.com/antirez/ds4

[3]https://news.ycombinator.com/item?id=48050751

Deepseek

henry

一年磨一劍，今年最炸機器人Demo來了！2026-05-07

波士頓動力泯然眾人了，高管集體出走，機器人“量產”只能造4台2026-05-07

馬斯克破大防了：私信求和遭拒，怒噴奧特曼Brockman「全美最惡人」2026-05-06

不卷參數卷架構，這個開源模型把圖像理解和生成統一了2026-04-29

掃碼分享至朋友圈

相關閲讀

DeepSeek再破谷歌OpenAI壟斷：開源IMO數學金牌大模型

谷歌和OpenAI要坐不住了！

henry2025-11-28

Deepseek

“DeepSeek甚至繞過了CUDA”，論文細節再引熱議，工程師靈魂提問：英偉達護城河還在嗎？

英偉達剛剛從DeepSeek-R1引發的4萬億元暴跌中緩過勁來，又面臨新的壓力？

西風2025-01-29

CUDA Deepseek

啊？7B的DeepSeek反超R1滿血版，上海AI Lab周伯文團隊新成果

最優的TTS方法高度依賴於具體的策略模型、過程獎勵模型（PRM）和問題難度

夢晨2025-02-12

Deepseek

DeepSeek-R1秘籍輕鬆遷移，只需原始數據0.3% | 邱錫鵬團隊聯合出品

已在開源模型llama 2上驗證

一水2025-02-24

Deepseek

免費！滿血版DeepSeek絲滑暢玩，低門檻實現671B-R1/V3自由

企業級API價格比官方低

明敏2025-02-12

Deepseek 潞晨雲

華為昇騰推理DeepSeek-R1，性能比肩高端GPU，API免費無限量

同步推出雲鏡像服務

明敏2025-02-04

Deepseek 華為昇騰