DeepSWE の結果は信頼できない – 同一モデルで 3/3 の「失敗」タスクを解決
DeepSWE ベンチマークの監査により、deepseek-v4-pro の報告結果(解決率 8%、平均コスト 4.22 ドル)が複数の問題により無効であることが判明:キャッシュ価格設定を無視した結果コストが約 5 倍に膨らみ、報告された 3 つの失敗タスクすべてが同一モデルで解決され、OpenRouter のプライバシー設定が DeepSeek をデフォルトでブロックし、モデルに推論努力の調整が行われていませんでした。
DeepSWE ベンチマークの詳細な監査により、deepseek-v4-pro モデルの報告結果に体系的な誤りがあることが明らかになりました。このモデルはベンチマークでわずか 8% の解決率、平均タスクコスト 4.22 ドルと報告されていましたが、これらの数字は実際の状況から大きく乖離しています。監査チームは複数の独立した問題を発見し、それらが総合的に DeepSWE の結論を信頼できないものにしています。
最大の誤りはコスト計算にあります。DeepSWE はすべての入力トークンをキャッシュミス率(0.435 ドル/百万トークン)で課金していましたが、実際には DeepSeek の API はキャッシュヒットに対して 99.2% の割引を提供し、ヒット率は 78% に達します。代表的なタスク abs-module-cache-flags では、DeepSWE は 4.36 ドルと報告しましたが、正しいキャッシュ価格を適用すると約 0.89 ドルになり、残りの 0.41 ドルは説明できません。これはベンチマークの平均コストが約 5 倍に誇張されていることを意味します。
さらに重要なことに、監査チームは DeepSWE が失敗と報告した 3 つのタスクすべてを、全く同じモデル deepseek-v4-pro を使用して再実行しました。これらのタスクは bandit-incremental-cache-control、termenv-preserve-ansi-resets、superjson-error-stack-serialization で、それぞれ異なるコードベースの問題を含んでいます。同じタスク定義とテスト検証器の下で、3 つのタスクすべてが合格し、総 API コストは約 0.86 ドルでした。これは、DeepSWE の失敗報告が誤りであることを直接的に示しています。
監査ではインフラストラクチャレベルの問題も発見されました。OpenRouter のデフォルトプライバシー設定は、データ学習に使用する可能性のあるプロバイダーをブロックするようになっており、DeepSeek がその対象です。OpenRouter の設定で手動で DeepSeek を有効にしない限り、API は 404 エラーを返し、DeepSWE にはフォールバックメカニズムがないため、無効なリクエストの再試行で時間と費用が浪費されます。さらに、deepseek-v4-pro はデフォルトの推論設定で実行されましたが、他のすべての競合モデルは注意深く調整された努力レベル(xhigh、max など)を適用されていました。DeepSeek の思考モードはデフォルトでオンになっており、不必要な推論トークンコストが発生していました。
監査チームは、キャッシュ価格設定の修正、エラーフェイルセーフの追加、deepseek-v4-pro の適切な努力レベル調整と異なるモードのテスト、OpenRouter のプロバイダールーティングの監査などを推奨しています。これらの発見は、DeepSWE の結果に依存してモデル性能を評価する研究者や開発者にとって重要な警告となります。