2026-07-02 11:55 UTC+9サイト内リライト2 分で読了更新: 2026-07-02 12:33 UTC+9

Senior SWE-Bench：エージェントをシニアエンジニアとして評価するオープンソースベンチマーク

Senior SWE-Benchは、AIエージェントがシニアエンジニアのように不十分に指定されたタスクを処理し、ランタイムデバッグを行い、洗練されたコードを提供する能力を評価するための新しいオープンソースベンチマークです。50の公開タスクと50の非公開タスクで構成され、トップモデルでも75%以上の失敗率を示しています。

ソースHacker News AI著者: matt_d

記事インテリジェンス

エンジニア上級

要点

3種類のタスク：自然言語指示による機能タスク、ランタイム調査が必要なバグタスク、コードのセンス評価。
検証エージェントが専門家設計のレシピを使用して行動テストを適応的に作成。
複数のリポジトリと言語をカバーし、マルチサービスやマルチスタックのタスクを含む。
Claude Opus 4.8で最高24%の成功率、シニアレベル課題の困難さを浮き彫りに。

重要な理由

このニュースが重要なのは、3種類のタスク：自然言語指示による機能タスク、ランタイム調査が必要なバグタスク、コードのセンス評価ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Senior SWE-Benchは、AIエージェントをシニアソフトウェアエンジニアとして評価する全く新しいオープンソースベンチマークです。従来のベンチマークが過度に指定された問題に焦点を当てていたのに対し、Senior SWE-Benchは現実の職場環境を反映した3つのタスクタイプを設計しました：機能タスク、バグタスク、コードセンス評価です。

機能タスクは、シニアエンジニアが詳細な要件ではなく自然言語のメッセージを受け取る状況を模倣します。例えば、BookWormプロジェクトにGoogle Booksをメタデータソースとして追加するタスクでは、指示は簡潔で、エージェントは自ら完全な統合ソリューションを理解し実装する必要があります。バグタスクは実際のユーザー報告に基づき、エージェントはサービス起動、ログ分析、プロファイリングデータの調査などのランタイム調査を行う必要があります。コードセンス評価では、機能的正しさだけでなく、検証器による解決策の簡潔性や保守性のスコアリングも行われます。

これらのタスクを確実に評価するため、Senior SWE-Benchは検証エージェントを導入しました。このエージェントは専門家が設計したレシピを使用して行動テストを作成し、提出されたソリューションに適応します。また、「テイストスコアリング」メカニズムにより、ランタイム正確性テストと実際のコードベース慣行に基づく複数の品質指標を組み合わせ、シニア標準に合致するソリューションのみが高スコアを得られます。

テストセットは50の公開タスクと50の非公開タスクで構成され、PostHog、Giteaなどの有名リポジトリを含み、Python、Elixir、Go、SQL、Rust等多様な言語とスタックをカバーします。各タスクは平均数百ステップを要する長期作業を表しています。

現在、トップAIモデルのパフォーマンスは依然として低く、Claude Opus 4.8が最大努力で24%の成功率、GPT-5.5が16%、Claude Sonnet 5が19.4%と、シニアレベルタスクにおける課題の難しさを浮き彫りにしています。Senior SWE-Benchは、AIエージェント評価の新たな指標を提供し、コード補完から高度なエンジニアリング意思決定へのシフトを促進します。詳細は公式ブログをご覧ください。