我們測試了DeepSeek V4 Pro和Flash與Claude Opus 4.7及Kimi K2.6的對比
我們對DeepSeek V4 Pro和Flash進行了與Claude Opus 4.7和Kimi K2.6相同的FlowGraph基準測試。Pro得分77/100,價格$2.25;Flash得分60/100,價格$0.02。Pro在性能上介於Opus(91)和Kimi(68)之間,但存在構建和租賃處理問題。Flash成本極低,但輸出缺少關鍵部分。
文章情報
要點
- DeepSeek V4 Pro以77分和$2.25的價格位於Opus和Kimi之間。
- DeepSeek V4 Flash以$0.02的成本獲得60分,但存在構建失敗和路由錯誤。
- Pro和Flash都存在租賃過期完成漏洞。
- Claude Opus 4.7仍然是表現最佳的模型。
為甚麼重要
這條新聞值得關注,因為DeepSeek V4 Pro以77分和$2.25的價格位於Opus和Kimi之間。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
DeepSeek於2026年4月24日發佈了V4 Pro和V4 Flash,採用MIT許可證。這是DeepSeek自V3以來的首個新架構,也是其首個提供兩個層級(Pro為旗艦,Flash為輕量級)的開放權重系列。我們使用與之前測試Claude Opus 4.7和Kimi K2.6相同的FlowGraph規範對兩者進行了評估,包括相同的規格、提示和評分標準。
DeepSeek V4 Pro以77/100的成績和$2.25的成本,性能介於Opus 4.7(91分)和Kimi K2.6(68分)之間。而DeepSeek V4 Flash僅獲得60分,成本僅為$0.02,這是我們在該測試中從未見過的低價,但其構建失敗,輸出缺少一些關鍵部分。
在測試中,我們使用了一個包含20個端點、持久狀態、租約管理、重試和事件流的工作流編排後端。DeepSeek V4 Pro通過了自身的測試套件,但TypeScript構建失敗。DeepSeek V4 Flash的測試套件從未運行,因為其設置腳本試圖強制重置數據庫,導致第一個測試執行前就出錯。
DeepSeek V4 Pro在系統整體結構上表現正確:端點已連接,測試套件通過,項目佈局合理。但問題集中在租約到期處理、調度、驗證和構建完整性上。例如,當工作進程的租約過期後,它仍然可以標記步驟為完成,這與README中的聲明相矛盾。此外,當某個工作流達到並行限制時,其聲明邏輯會阻塞其他工作流的候選步驟,導致工作進程閒置。項目也無法構建:npm test通過,但npm run build失敗,且TypeScript配置未生成編譯輸出。
DeepSeek V4 Flash同樣存在租約到期完成漏洞,且拒絕接受有效的請求載荷(僅接受JSON對象而非數組)。其API端點掛載在錯誤的路由前綴下,導致客户端無法啓動工作流運行。更嚴重的是,當工作流失敗後,後續步驟仍可能被錯誤地標記為“等待重試”,從而被工作進程拾取。不過,其工具調用能力出乎意料地好:模型在Kilo CLI中表現穩定,能正確讀取文件、安裝依賴並運行測試,沒有出現常見的廉價模型失敗模式。
在成本對比方面,DeepSeek V4 Flash每分成本約為Kimi K2.6的1/30和Opus 4.7的1/100。雖然分數較低,但$0.02的超低成本使其非常適合需要多次嘗試的任務。DeepSeek V4 Pro在應用官方折扣後(75%優惠至2026年5月31日),成本可降至約$0.55,低於Kimi K2.6且分數高出9分。
總體而言,Claude Opus 4.7仍然領先,僅有一個可重現的漏洞。DeepSeek V4 Pro優於Kimi K2.6,但差距依然存在。DeepSeek V4 Flash則開創了新的價格類別,儘管不完全可靠,但$0.02的第一次嘗試成本改變了計算方式。