DeepSWE 結果不可靠——同一模型解決了全部 3/3 個“失敗”任務
對 DeepSWE 基準測試的審計發現,deepseek-v4-pro 的報告結果(8% 解決率,平均成本 4.22 美元)存在多個問題:成本因忽略緩存定價膨脹約 5 倍,所有三個失敗任務均被同一模型成功解決,OpenRouter 隱私設置默認阻止 DeepSeek 導致 404 錯誤,且模型未像競品一樣進行推理努力調優。
一項針對 DeepSWE 基準測試的詳細審計揭示了 deepseek-v4-pro 模型報告結果中的系統性錯誤。該模型在基準測試中僅達到 8% 的解決率,平均每次任務成本為 4.22 美元,但這些數字嚴重偏離實際情況。審計團隊發現了多個相互獨立的問題,共同導致 DeepSWE 的結論不可靠。
成本計算是最大的失誤。DeepSWE 對所有輸入令牌均按全額緩存未命中率(每百萬令牌 0.435 美元)計費,而實際上 DeepSeek 的 API 對緩存命中提供了 99.2% 的折扣,命中率高達 78%。以代表性任務 abs-module-cache-flags 為例,DeepSWE 報告成本 4.36 美元,但按正確緩存定價僅約 0.89 美元,剩餘 0.41 美元無法解釋。這意味着基準測試的成本平均被誇大了約 5 倍。
更值得注意的是,審計團隊使用完全相同的模型 deepseek-v4-pro,重新運行了 DeepSWE 報告中所有三個失敗的任務。這些任務涵蓋了不同的代碼庫問題,包括 bandit-incremental-cache-control、termenv-preserve-ansi-resets 和 superjson-error-stack-serialization。在相同任務定義和測試驗證器下,三個任務全部通過,綜合 API 成本僅約 0.86 美元。這直接否定了 DeepSWE 關於該模型在這些任務上失敗的結論。
審計還發現了基礎設施層面的問題。OpenRouter 的默認隱私設置會阻止可能使用數據進行訓練的提供商,而 DeepSeek 恰好屬於此類。如果不手動在 OpenRouter 設置中啓用 DeepSeek,API 將返回 404 錯誤,且 DeepSWE 未設置任何回退機制,導致重複重試浪費大量時間和金錢。此外,deepseek-v4-pro 在基準測試中以默認推理設置運行,而所有其他競品模型均獲得了精心調優的推理努力級別(如 xhigh、max 等)。DeepSeek 的思考模式默認開啓,進一步增加了不必要的推理令牌成本。
審計團隊提出了幾點建議:修復緩存定價計算以反映實際成本;增加錯誤回退機制以防止 404 循環;對 deepseek-v4-pro 進行適當的努力級別調優並測試不同模式;審計 OpenRouter 的提供商路由以確保並非所有請求都來自正確的模型。這些發現對於依賴 DeepSWE 結果評估模型性能的研究人員和開發者具有重要的警示意義。