AI News HubLIVE
サイト内リライト2 分で読了

Senior SWE-Bench:エージェントをシニアエンジニアとして評価するオープンソースベンチマーク

Senior SWE-Benchは、AIエージェントがシニアエンジニアのように不十分に指定されたタスクを処理し、ランタイムデバッグを行い、洗練されたコードを提供する能力を評価するための新しいオープンソースベンチマークです。50の公開タスクと50の非公開タスクで構成され、トップモデルでも75%以上の失敗率を示しています。

ソースHacker News AI著者: matt_d

Senior SWE-Benchは、AIエージェントをシニアソフトウェアエンジニアとして評価する全く新しいオープンソースベンチマークです。従来のベンチマークが過度に指定された問題に焦点を当てていたのに対し、Senior SWE-Benchは現実の職場環境を反映した3つのタスクタイプを設計しました:機能タスク、バグタスク、コードセンス評価です。

機能タスクは、シニアエンジニアが詳細な要件ではなく自然言語のメッセージを受け取る状況を模倣します。例えば、BookWormプロジェクトにGoogle Booksをメタデータソースとして追加するタスクでは、指示は簡潔で、エージェントは自ら完全な統合ソリューションを理解し実装する必要があります。バグタスクは実際のユーザー報告に基づき、エージェントはサービス起動、ログ分析、プロファイリングデータの調査などのランタイム調査を行う必要があります。コードセンス評価では、機能的正しさだけでなく、検証器による解決策の簡潔性や保守性のスコアリングも行われます。

これらのタスクを確実に評価するため、Senior SWE-Benchは検証エージェントを導入しました。このエージェントは専門家が設計したレシピを使用して行動テストを作成し、提出されたソリューションに適応します。また、「テイストスコアリング」メカニズムにより、ランタイム正確性テストと実際のコードベース慣行に基づく複数の品質指標を組み合わせ、シニア標準に合致するソリューションのみが高スコアを得られます。

テストセットは50の公開タスクと50の非公開タスクで構成され、PostHog、Giteaなどの有名リポジトリを含み、Python、Elixir、Go、SQL、Rust等多様な言語とスタックをカバーします。各タスクは平均数百ステップを要する長期作業を表しています。

現在、トップAIモデルのパフォーマンスは依然として低く、Claude Opus 4.8が最大努力で24%の成功率、GPT-5.5が16%、Claude Sonnet 5が19.4%と、シニアレベルタスクにおける課題の難しさを浮き彫りにしています。Senior SWE-Benchは、AIエージェント評価の新たな指標を提供し、コード補完から高度なエンジニアリング意思決定へのシフトを促進します。詳細は公式ブログをご覧ください。