2026-05-15 09:39 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

我們測試了DeepSeek V4 Pro和Flash與Claude Opus 4.7及Kimi K2.6的對比

我們對DeepSeek V4 Pro和Flash進行了與Claude Opus 4.7和Kimi K2.6相同的FlowGraph基準測試。Pro得分77/100，價格$2.25；Flash得分60/100，價格$0.02。Pro在性能上介於Opus（91）和Kimi（68）之間，但存在構建和租賃處理問題。Flash成本極低，但輸出缺少關鍵部分。

來源Hacker News AI作者: nl

DeepSeek於2026年4月24日發佈了V4 Pro和V4 Flash，採用MIT許可證。這是DeepSeek自V3以來的首個新架構，也是其首個提供兩個層級（Pro為旗艦，Flash為輕量級）的開放權重系列。我們使用與之前測試Claude Opus 4.7和Kimi K2.6相同的FlowGraph規範對兩者進行了評估，包括相同的規格、提示和評分標準。

DeepSeek V4 Pro以77/100的成績和$2.25的成本，性能介於Opus 4.7（91分）和Kimi K2.6（68分）之間。而DeepSeek V4 Flash僅獲得60分，成本僅為$0.02，這是我們在該測試中從未見過的低價，但其構建失敗，輸出缺少一些關鍵部分。

在測試中，我們使用了一個包含20個端點、持久狀態、租約管理、重試和事件流的工作流編排後端。DeepSeek V4 Pro通過了自身的測試套件，但TypeScript構建失敗。DeepSeek V4 Flash的測試套件從未運行，因為其設置腳本試圖強制重置數據庫，導致第一個測試執行前就出錯。

DeepSeek V4 Pro在系統整體結構上表現正確：端點已連接，測試套件通過，項目佈局合理。但問題集中在租約到期處理、調度、驗證和構建完整性上。例如，當工作進程的租約過期後，它仍然可以標記步驟為完成，這與README中的聲明相矛盾。此外，當某個工作流達到並行限制時，其聲明邏輯會阻塞其他工作流的候選步驟，導致工作進程閒置。項目也無法構建：npm test通過，但npm run build失敗，且TypeScript配置未生成編譯輸出。

DeepSeek V4 Flash同樣存在租約到期完成漏洞，且拒絕接受有效的請求載荷（僅接受JSON對象而非數組）。其API端點掛載在錯誤的路由前綴下，導致客户端無法啓動工作流運行。更嚴重的是，當工作流失敗後，後續步驟仍可能被錯誤地標記為“等待重試”，從而被工作進程拾取。不過，其工具調用能力出乎意料地好：模型在Kilo CLI中表現穩定，能正確讀取文件、安裝依賴並運行測試，沒有出現常見的廉價模型失敗模式。

在成本對比方面，DeepSeek V4 Flash每分成本約為Kimi K2.6的1/30和Opus 4.7的1/100。雖然分數較低，但$0.02的超低成本使其非常適合需要多次嘗試的任務。DeepSeek V4 Pro在應用官方折扣後（75%優惠至2026年5月31日），成本可降至約$0.55，低於Kimi K2.6且分數高出9分。

總體而言，Claude Opus 4.7仍然領先，僅有一個可重現的漏洞。DeepSeek V4 Pro優於Kimi K2.6，但差距依然存在。DeepSeek V4 Flash則開創了新的價格類別，儘管不完全可靠，但$0.02的第一次嘗試成本改變了計算方式。