2026-06-05 00:32 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

DeepSWE 結果不可靠——同一模型解決了全部 3/3 個“失敗”任務

對 DeepSWE 基準測試的審計發現，deepseek-v4-pro 的報告結果（8% 解決率，平均成本 4.22 美元）存在多個問題：成本因忽略緩存定價膨脹約 5 倍，所有三個失敗任務均被同一模型成功解決，OpenRouter 隱私設置默認阻止 DeepSeek 導致 404 錯誤，且模型未像競品一樣進行推理努力調優。

來源Hacker News AI作者: theanonymousone

一項針對 DeepSWE 基準測試的詳細審計揭示了 deepseek-v4-pro 模型報告結果中的系統性錯誤。該模型在基準測試中僅達到 8% 的解決率，平均每次任務成本為 4.22 美元，但這些數字嚴重偏離實際情況。審計團隊發現了多個相互獨立的問題，共同導致 DeepSWE 的結論不可靠。

成本計算是最大的失誤。DeepSWE 對所有輸入令牌均按全額緩存未命中率（每百萬令牌 0.435 美元）計費，而實際上 DeepSeek 的 API 對緩存命中提供了 99.2% 的折扣，命中率高達 78%。以代表性任務 abs-module-cache-flags 為例，DeepSWE 報告成本 4.36 美元，但按正確緩存定價僅約 0.89 美元，剩餘 0.41 美元無法解釋。這意味着基準測試的成本平均被誇大了約 5 倍。

更值得注意的是，審計團隊使用完全相同的模型 deepseek-v4-pro，重新運行了 DeepSWE 報告中所有三個失敗的任務。這些任務涵蓋了不同的代碼庫問題，包括 bandit-incremental-cache-control、termenv-preserve-ansi-resets 和 superjson-error-stack-serialization。在相同任務定義和測試驗證器下，三個任務全部通過，綜合 API 成本僅約 0.86 美元。這直接否定了 DeepSWE 關於該模型在這些任務上失敗的結論。

審計還發現了基礎設施層面的問題。OpenRouter 的默認隱私設置會阻止可能使用數據進行訓練的提供商，而 DeepSeek 恰好屬於此類。如果不手動在 OpenRouter 設置中啓用 DeepSeek，API 將返回 404 錯誤，且 DeepSWE 未設置任何回退機制，導致重複重試浪費大量時間和金錢。此外，deepseek-v4-pro 在基準測試中以默認推理設置運行，而所有其他競品模型均獲得了精心調優的推理努力級別（如 xhigh、max 等）。DeepSeek 的思考模式默認開啓，進一步增加了不必要的推理令牌成本。

審計團隊提出了幾點建議：修復緩存定價計算以反映實際成本；增加錯誤回退機制以防止 404 循環；對 deepseek-v4-pro 進行適當的努力級別調優並測試不同模式；審計 OpenRouter 的提供商路由以確保並非所有請求都來自正確的模型。這些發現對於依賴 DeepSWE 結果評估模型性能的研究人員和開發者具有重要的警示意義。