AI News HubLIVE
站内改写

Redis之父下場,給DeepSeek V4單獨造了一臺推理引擎

Redis創始人antirez為DeepSeek V4 Flash打造專用推理引擎ds4.c,在Mac上實現本地高效能執行,支援2-bit量化、KV快取硬碟化及API相容層,引發對模型專屬推理框架的討論。

文章情報

工程師進階

要點

  • Redis之父antirez釋出專為DeepSeek V4 Flash設計的推理引擎ds4.c,基於Metal框架,僅支援Apple Silicon。
  • 透過非對稱量化、KV快取外接和API相容層實現128GB Mac上284B模型可用推理速度。
  • 專案引發“一個模型一個推理框架”的討論,antirez強調全棧本地推理理念。
  • 開發過程中大量使用AI輔助,體現AI對開源生態的影響。

為什麼重要

這條新聞值得關注,因為Redis之父antirez釋出專為DeepSeek V4 Flash設計的推理引擎ds4.c,基於Metal框架,僅支援Apple Silicon。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Redis之父下場,給DeepSeek V4單獨造了一臺推理引擎 – 量子位

首頁

資訊

智慧車

智庫

活動

MEET大會

AIGC

掃碼關注量子位

-->

Redis之父下場,給DeepSeek V4單獨造了一臺推理引擎

henry 2026-05-08 16:20:40

來源:量子位

Mac上就能本地跑deepseek

henry 發自 凹非寺

量子位 | 公眾號 QbitAi

DeepSeek V4,已經開始逼著海外開發者為它修專屬高速公路了。

釋出才兩週,開源圈裡,第一批V4原生基礎設施已經冒了出來。

而且,不是那種在現有框架上套一層殼的“小修小補”。

不是通用GGUF載入器;不是llama.cpp的wrapper;甚至壓根不支援別的模型。

它只幹一件事:

把DeepSeek V4 Flash,在Mac上跑到極致。

這條“專屬高速公路”,叫ds4.c。而把修出來的人,分量有點嚇人——

Salvatore Sanfilippo,程式設計師圈更熟悉他的另一個名字:antirez。

他一手創造了 Redis(GitHub 7.4 萬 Star),並親自主導這個全球最流行的記憶體資料庫整整 11 年。

而現在,他的新專案ds4.c,是一個專門為DeepSeek V4 Flash打造的本地推理引擎。

時間線上,已經有網友在128GB Mac上把它跑了起來。

可以說,這波,Mac庫存又被DeepSeek清了一遍。

鯨魚,確實值得。

專為V4 Flash打造的本地推理引擎

4月24日,DeepSeek釋出V4系列。其中,V4 Flash是效率型號:284B總引數、13B啟用引數、100萬token上下文。

這樣的體量,過去幾乎預設屬於雲端。

而antirez想做的,是把它塞進一臺Mac。於是,ds4.c誕生了。

這是一個用C + Metal從頭寫出來的推理引擎。

整個專案就幾個檔案,C佔55.4%,Objective-C 30.2%,Metal 13.8%。Metal-only,沒有執行時,沒有框架依賴,沒有抽象層。

Metal-only。

Metal是蘋果自家的圖形和計算API,在Mac、iPhone、iPad上呼叫GPU都靠它,相當於蘋果生態裡的CUDA。

ds4只用Metal的意思是,這個引擎只在Apple Silicon上跑,不管Nvidia顯示卡,也不管AMD。

整個專案只有一個目標:

讓V4 Flash在本地的蘋果機器上,不只是“能跑”,而是真正“能用”。

目前測試結果已經相當誇張:

在128GB記憶體的MacBook Pro M3 Max上,2-bit量化、32K上下文,短prompt預填充58.52 token/s,生成26.68 token/s。

換成512GB的Mac Studio M3 Ultra,長prompt(11709 token)預填充能到468.03 token/s,生成27.39 token/s。

對一個284B引數的MoE模型來說,這個速度在本地機器上是可用的。

怎麼做到的?

關鍵在三件事。

第一,非對稱量化。

ds4並不會把所有引數都壓到2-bit,而是隻量化路由的MoE專家層,up/gate用IQ2_XXS,down用Q2_K,這些層佔了模型空間的絕大部分。

其他元件,共享專家層、投影層、路由層,全部保留Q8精度不動。

antirez在README裡寫了一句很直接的話:

這些2-bit量化不是開玩笑,它們在coding agent下表現良好,能可靠地呼叫工具。

第二,KV快取搬到硬碟上。

現在的LLM agent客戶端都是無狀態的,每次請求把整段對話重新發一遍。

通用引擎的做法是每次重新做prefill。

ds4的做法是把KV狀態寫到磁碟上,下次請求過來匹配token字首,命中了就直接從磁碟載入,跳過prefill。

快取的key是token ID序列的SHA1雜湊值。

這對Claude Code這種每次啟動會發25K token初始prompt的agent場景尤其有用,第一次prefill完成後,後續會話直接從磁碟恢復。

第三,內建OpenAI和Anthropic兩套API相容層。

/v1/chat/completions走OpenAI協議,/v1/messages走Anthropic協議。tool calling也做了適配。README裡直接給了opencode、Pi、Claude Code三種agent客戶端的配置示例。

關於為什麼要做這件事。

antirez的回答是,本地推理領域有很多優秀專案,但新模型不斷髮布,注意力立刻被下一個要實現的模型吸走。

通用引擎為了相容所有模型,必須做抽象。抽象意味著妥協。他想做的是一條刻意的窄路,一次只賭一個模型,用官方logits做驗證,做長上下文測試,做足夠的agent整合來確認它真的能用。

框架一經發布,就有網友不少網友反饋,已經在Mac上跑起來了。

你準備好在本地跑V4了嗎?

一個模型一個推理框架

這件事,也在開發者圈炸出了一個更大的討論:

未來會不會變成——一個模型,一個推理框架?

Hacker News上一條高贊評論提了一個有意思的方向,如果開始針對精確的GPU加模型組合構建超最佳化推理引擎呢?

GPU越來越貴,如果去掉足夠多的抽象層,直接針對精確的硬體和模型編碼,可能能最佳化很多。

這條路的代價也很明顯。同一條評論指出,一旦模型過時,一切從頭來過。

antirez自己也承認了這個問題。他說ds4當前賭的是DeepSeek V4 Flash,但模型可能會換。

不變的約束是,本地推理要在高階個人機器或Mac Studio上跑得靠譜,起步128GB記憶體。

未來會怎樣,README裡留了個伏筆。

當前是Metal-only,未來可能會做CUDA支援。但他寫得很謹慎,也許會,但僅此而已。這個專案刻意保持小、快、專注。

更值得關注的是他在README裡丟擲的一個觀點,本地推理應該是三件事一起做好,開箱即用。

一個有HTTP API的推理引擎,一份針對這個引擎和這套假設特別打造的GGUF,一套和coding agent對接的測試和驗證。

這是一種全棧本地推理的思路,不是把元件拼起來,是把鏈路當成一個產品來設計。

如果這條路走通了,它可能改變本地推理的玩法。

模型廠商釋出新模型的同時,社群裡就會有人跳出來給它做專屬引擎,做專屬量化,做專屬agent接入。每一代模型都有一個自己的「antirez」。

ds4還有一個很坦率的細節。README裡有一段宣告,這個軟體是在GPT 5.5的「強力輔助」下開發的,人類負責想法、測試和除錯。

antirez說如果你不接受AI輔助開發的程式碼,這個軟體不適合你。

兩週時間,從fork llama.cpp做適配,到從頭寫一個專用引擎,離不開AI輔助。這件事本身可能比ds4還更值得關注。

One more thing

最後說一下antirez這個人。

真名Salvatore Sanfilippo,1977年出生於西西里島。2009年建立Redis,主導這個專案十一年,2020年離開。

離開時他寫過一段話,說自己寫程式碼是為了表達自己,程式碼是一件製品而不只是有用的工具。他寧可被記住為一個糟糕的藝術家,也不願被記住為一個好程式設計師。

2024年底他回到Redis,擔任evangelist角色。

除了Redis之外,他還寫過Kilo(不到1000行C程式碼的文本編輯器)、dump1090(航空ADS-B訊號解碼器)、linenoise(readline的微型替代品)。

他還在玩Flipper Zero,寫了RF協議分析工具,把Asteroids移植到上面。2022年他出了一本科幻小說《WOHPE》,主題是AI、氣候變化、程式設計師,以及人類和技術的互動。

他個人主頁第一行寫的是,「我把大部分專業時間花在寫程式碼和寫小說上。」

關於Redis的誕生,他在個人主頁裡寫了一段:

我老婆說,Redis的前幾年我大部分程式碼都是坐在馬桶上寫的,用一臺MacBook Air 11寸。我真希望能說她錯了,但她正好說得完全對。

這種調性貫穿了他做的所有專案。小、精確、自成一體。

ds4.c也是同一個路子。

看一下他在ds4 README裡關於macOS bug的那段備註,能立刻感覺到這個人的味道。

ds4有一個CPU推理路徑用於正確性驗證,但當前版本的macOS在虛擬記憶體實現上有一個bug,跑CPU推理會導致核心崩潰。

他寫道,記住了嗎?軟體都很爛。我沒法修復CPU推理來避免崩潰,因為每次都得重啟電腦,一點都不好玩。

然後加了一句,如果你有膽量,來幫我們。

他在個人主頁裡還留了一句話:

現代程式設計正變得複雜、無趣,全是要粘合的層。它正失去大部分美感。大多數程式設計師既不在面對程式設計的藝術面,也不在面對程式設計的高階工程面。

從Redis到ds4.c,十五年過去,antirez還是那個antirez。

只不過這一次,他開始給AI修路了。

參考連結

[1]http://invece.org/

[2]https://github.com/antirez/ds4

[3]https://news.ycombinator.com/item?id=48050751

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

Deepseek

henry

一年磨一劍,今年最炸機器人Demo來了!2026-05-07

波士頓動力泯然眾人了,高管集體出走,機器人“量產”只能造4臺2026-05-07

馬斯克破大防了:私信求和遭拒,怒噴奧特曼Brockman「全美最惡人」2026-05-06

不卷引數卷架構,這個開源模型把影像理解和生成統一了2026-04-29

掃碼分享至朋友圈

相關閱讀

DeepSeek再破谷歌OpenAI壟斷:開源IMO數學金牌大模型

谷歌和OpenAI要坐不住了!

henry2025-11-28

Deepseek

“DeepSeek甚至繞過了CUDA”,論文細節再引熱議,工程師靈魂提問:輝達護城河還在嗎?

輝達剛剛從DeepSeek-R1引發的4萬億元暴跌中緩過勁來,又面臨新的壓力?

西風2025-01-29

CUDA Deepseek

啊?7B的DeepSeek反超R1滿血版,上海AI Lab周伯文團隊新成果

最優的TTS方法高度依賴於具體的策略模型、過程獎勵模型(PRM)和問題難度

夢晨2025-02-12

Deepseek

DeepSeek-R1秘籍輕鬆遷移,只需原始資料0.3% | 邱錫鵬團隊聯合出品

已在開源模型llama 2上驗證

一水2025-02-24

Deepseek

免費!滿血版DeepSeek絲滑暢玩,低門檻實現671B-R1/V3自由

企業級API價格比官方低

明敏2025-02-12

Deepseek 潞晨雲

華為昇騰推理DeepSeek-R1,效能比肩高階GPU,API免費無限量

同步推出雲映象服務

明敏2025-02-04

Deepseek 華為昇騰

熱門文章

華為攜手中科大發布靈境造物,openJiuwen首發Coordination Engineering全棧支撐

2026-05-01

智譜公佈“降智”的秘密:Scaling不可避免的痛

2026-05-01

他用AI辦了個音樂節,主題:別讀博

2026-05-01

突破視覺模擬算力瓶頸!新一代具身智慧模擬框架開源:高吞吐並行高保真渲染助力規模化訓練

2026-05-01

太抓馬了!馬斯克OpenAI開庭,矽谷鉅富互揭老底像極了村口吵架

2026-05-01

搜尋:

搜尋

-->

關於量子位

加入我們

尋求報道

商務合作

-->

掃碼關注量子位

追蹤人工智慧新趨勢,報道科技行業新突破

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1