2026-05-08 16:20 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Redis之父下場，給DeepSeek V4單獨造了一臺推理引擎

Redis創始人antirez為DeepSeek V4 Flash打造專用推理引擎ds4.c，在Mac上實現本地高效能執行，支援2-bit量化、KV快取硬碟化及API相容層，引發對模型專屬推理框架的討論。

來源量子位作者: henry

Redis之父下場，給DeepSeek V4單獨造了一臺推理引擎 – 量子位

首頁

資訊

智慧車

智庫

活動

MEET大會

AIGC

掃碼關注量子位

-->

Redis之父下場，給DeepSeek V4單獨造了一臺推理引擎

henry 2026-05-08 16:20:40

來源：量子位

Mac上就能本地跑deepseek

henry 發自凹非寺

量子位 | 公眾號 QbitAi

DeepSeek V4，已經開始逼著海外開發者為它修專屬高速公路了。

釋出才兩週，開源圈裡，第一批V4原生基礎設施已經冒了出來。

而且，不是那種在現有框架上套一層殼的“小修小補”。

不是通用GGUF載入器；不是llama.cpp的wrapper；甚至壓根不支援別的模型。

它只幹一件事：

把DeepSeek V4 Flash，在Mac上跑到極致。

這條“專屬高速公路”，叫ds4.c。而把修出來的人，分量有點嚇人——

Salvatore Sanfilippo，程式設計師圈更熟悉他的另一個名字：antirez。

他一手創造了 Redis（GitHub 7.4 萬 Star），並親自主導這個全球最流行的記憶體資料庫整整 11 年。

而現在，他的新專案ds4.c，是一個專門為DeepSeek V4 Flash打造的本地推理引擎。

時間線上，已經有網友在128GB Mac上把它跑了起來。

可以說，這波，Mac庫存又被DeepSeek清了一遍。

鯨魚，確實值得。

專為V4 Flash打造的本地推理引擎

4月24日，DeepSeek釋出V4系列。其中，V4 Flash是效率型號：284B總引數、13B啟用引數、100萬token上下文。

這樣的體量，過去幾乎預設屬於雲端。

而antirez想做的，是把它塞進一臺Mac。於是，ds4.c誕生了。

這是一個用C + Metal從頭寫出來的推理引擎。

整個專案就幾個檔案，C佔55.4%，Objective-C 30.2%，Metal 13.8%。Metal-only，沒有執行時，沒有框架依賴，沒有抽象層。

Metal-only。

Metal是蘋果自家的圖形和計算API，在Mac、iPhone、iPad上呼叫GPU都靠它，相當於蘋果生態裡的CUDA。

ds4只用Metal的意思是，這個引擎只在Apple Silicon上跑，不管Nvidia顯示卡，也不管AMD。

整個專案只有一個目標：

讓V4 Flash在本地的蘋果機器上，不只是“能跑”，而是真正“能用”。

目前測試結果已經相當誇張：

在128GB記憶體的MacBook Pro M3 Max上，2-bit量化、32K上下文，短prompt預填充58.52 token/s，生成26.68 token/s。

換成512GB的Mac Studio M3 Ultra，長prompt（11709 token）預填充能到468.03 token/s，生成27.39 token/s。

對一個284B引數的MoE模型來說，這個速度在本地機器上是可用的。

怎麼做到的？

關鍵在三件事。

第一，非對稱量化。

ds4並不會把所有引數都壓到2-bit，而是隻量化路由的MoE專家層，up/gate用IQ2_XXS，down用Q2_K，這些層佔了模型空間的絕大部分。

其他元件，共享專家層、投影層、路由層，全部保留Q8精度不動。

antirez在README裡寫了一句很直接的話：

這些2-bit量化不是開玩笑，它們在coding agent下表現良好，能可靠地呼叫工具。

第二，KV快取搬到硬碟上。

現在的LLM agent客戶端都是無狀態的，每次請求把整段對話重新發一遍。

通用引擎的做法是每次重新做prefill。

ds4的做法是把KV狀態寫到磁碟上，下次請求過來匹配token字首，命中了就直接從磁碟載入，跳過prefill。

快取的key是token ID序列的SHA1雜湊值。

這對Claude Code這種每次啟動會發25K token初始prompt的agent場景尤其有用，第一次prefill完成後，後續會話直接從磁碟恢復。

第三，內建OpenAI和Anthropic兩套API相容層。

/v1/chat/completions走OpenAI協議，/v1/messages走Anthropic協議。tool calling也做了適配。README裡直接給了opencode、Pi、Claude Code三種agent客戶端的配置示例。

關於為什麼要做這件事。

antirez的回答是，本地推理領域有很多優秀專案，但新模型不斷髮布，注意力立刻被下一個要實現的模型吸走。

通用引擎為了相容所有模型，必須做抽象。抽象意味著妥協。他想做的是一條刻意的窄路，一次只賭一個模型，用官方logits做驗證，做長上下文測試，做足夠的agent整合來確認它真的能用。

框架一經發布，就有網友不少網友反饋，已經在Mac上跑起來了。

你準備好在本地跑V4了嗎？

一個模型一個推理框架

這件事，也在開發者圈炸出了一個更大的討論：

未來會不會變成——一個模型，一個推理框架？

Hacker News上一條高贊評論提了一個有意思的方向，如果開始針對精確的GPU加模型組合構建超最佳化推理引擎呢？

GPU越來越貴，如果去掉足夠多的抽象層，直接針對精確的硬體和模型編碼，可能能最佳化很多。

這條路的代價也很明顯。同一條評論指出，一旦模型過時，一切從頭來過。

antirez自己也承認了這個問題。他說ds4當前賭的是DeepSeek V4 Flash，但模型可能會換。

不變的約束是，本地推理要在高階個人機器或Mac Studio上跑得靠譜，起步128GB記憶體。

未來會怎樣，README裡留了個伏筆。

當前是Metal-only，未來可能會做CUDA支援。但他寫得很謹慎，也許會，但僅此而已。這個專案刻意保持小、快、專注。

更值得關注的是他在README裡丟擲的一個觀點，本地推理應該是三件事一起做好，開箱即用。

一個有HTTP API的推理引擎，一份針對這個引擎和這套假設特別打造的GGUF，一套和coding agent對接的測試和驗證。

這是一種全棧本地推理的思路，不是把元件拼起來，是把鏈路當成一個產品來設計。

如果這條路走通了，它可能改變本地推理的玩法。

模型廠商釋出新模型的同時，社群裡就會有人跳出來給它做專屬引擎，做專屬量化，做專屬agent接入。每一代模型都有一個自己的「antirez」。

ds4還有一個很坦率的細節。README裡有一段宣告，這個軟體是在GPT 5.5的「強力輔助」下開發的，人類負責想法、測試和除錯。

antirez說如果你不接受AI輔助開發的程式碼，這個軟體不適合你。

兩週時間，從fork llama.cpp做適配，到從頭寫一個專用引擎，離不開AI輔助。這件事本身可能比ds4還更值得關注。

One more thing

最後說一下antirez這個人。

真名Salvatore Sanfilippo，1977年出生於西西里島。2009年建立Redis，主導這個專案十一年，2020年離開。

離開時他寫過一段話，說自己寫程式碼是為了表達自己，程式碼是一件製品而不只是有用的工具。他寧可被記住為一個糟糕的藝術家，也不願被記住為一個好程式設計師。

2024年底他回到Redis，擔任evangelist角色。

除了Redis之外，他還寫過Kilo（不到1000行C程式碼的文本編輯器）、dump1090（航空ADS-B訊號解碼器）、linenoise（readline的微型替代品）。

他還在玩Flipper Zero，寫了RF協議分析工具，把Asteroids移植到上面。2022年他出了一本科幻小說《WOHPE》，主題是AI、氣候變化、程式設計師，以及人類和技術的互動。

他個人主頁第一行寫的是，「我把大部分專業時間花在寫程式碼和寫小說上。」

關於Redis的誕生，他在個人主頁裡寫了一段：

我老婆說，Redis的前幾年我大部分程式碼都是坐在馬桶上寫的，用一臺MacBook Air 11寸。我真希望能說她錯了，但她正好說得完全對。

這種調性貫穿了他做的所有專案。小、精確、自成一體。

ds4.c也是同一個路子。

看一下他在ds4 README裡關於macOS bug的那段備註，能立刻感覺到這個人的味道。

ds4有一個CPU推理路徑用於正確性驗證，但當前版本的macOS在虛擬記憶體實現上有一個bug，跑CPU推理會導致核心崩潰。

他寫道，記住了嗎？軟體都很爛。我沒法修復CPU推理來避免崩潰，因為每次都得重啟電腦，一點都不好玩。

然後加了一句，如果你有膽量，來幫我們。

他在個人主頁裡還留了一句話：

現代程式設計正變得複雜、無趣，全是要粘合的層。它正失去大部分美感。大多數程式設計師既不在面對程式設計的藝術面，也不在面對程式設計的高階工程面。

從Redis到ds4.c，十五年過去，antirez還是那個antirez。

只不過這一次，他開始給AI修路了。

參考連結

[1]http://invece.org/

[2]https://github.com/antirez/ds4

[3]https://news.ycombinator.com/item?id=48050751

Deepseek

henry

一年磨一劍，今年最炸機器人Demo來了！2026-05-07

波士頓動力泯然眾人了，高管集體出走，機器人“量產”只能造4臺2026-05-07

馬斯克破大防了：私信求和遭拒，怒噴奧特曼Brockman「全美最惡人」2026-05-06

不卷引數卷架構，這個開源模型把影像理解和生成統一了2026-04-29

掃碼分享至朋友圈